日本学関連データベースリストをみんなでつくろうプロジェクト: 2020年、あけましておめでとうございます

2020年、あけましておめでとうございます！
というわけで、しばらく更新しておりませんでした。おまたせしました…

このプロジェクトもほそぼそとつづいていますが、2019年はいろいろありました。
このプロジェクトに関連することとしては、ひょっとしたら欧米のグループの方たちと一緒に働けるかもしれない、日本のどこかの機関がこのプロジェクトを拾ってくれるかもしれない、という話がありました。完全に正式に決まった、というわけではないので名前などは現段階では出せませんが、いろいろ分かり次第こちらでもご報告しますね。

また、昨年はDH関連でいろいろあたらしいものが公開されていました。
そのなかで、気になるものをちょっとだけピックアップしてみました。

KuroNetくずし字認識サービス

CODHが昨年11月に公開したくずし字認識サービスです。IIIFに準拠して公開した画像上のくずし字を、一字ずつではなく、多くの文字（たとえば一頁すべての文字）をOCRしてくれます。将来は、OCRで生成されたテキストデータをダウンロードなどして再利用できるようになる、という噂もみみにしました（未確認です）。

次世代デジタルライブラリーに搭載されているテキストデータ

NDLラボが次世代デジタルライブラリーで公開されている画像データにOCRをかけ、そのテキストデータをGitHubで公開したもの。OCRの精度は今後も改良されるようです。
この様なテキストデータがあると、コーパス作成や自然言語処理などすればいろいろ研究の役にたつのではないだろうか。公開されたテキストデータだけではなくて、さらにもう一歩踏み込んだ処理が必要になるが、ここから何かが生まれてきそう、と言う感じがいいですよね。

デジタル源氏物語

国立国会図書館、九州大学附属図書館がIIIFに準拠して公開している画像データをTEIでマークアップしたテキスト（校異源氏物語テキストDBや青空文庫で公開されている与謝野晶子訳の源氏物語をTEIマークアップしたもの）に紐付けして、画像とテキストを見比べられるようにしたもの。

ちなみにこれらも日本学関連データベースリストに登録しました。
これらをみていると、テキストデータを生成するのに使えるツール、テキストデータそのもの、それらを流用して新しい何かを認識できる（あるいはその助けになる）ツールというものがいろいろ出ていて、それが強く加速しそう、という印象を受けます。
日本学関連データベースリストの文脈で考えると、提供されるもの・情報がさらに多様化していて、単純なデータベースだけではなくなっていますよね。
今年はどうなるのでしょう。わくわくしますね。

日本学関連データベースリストをみんなでつくろうプロジェクト

2020年1月9日木曜日

2020年、あけましておめでとうございます

KuroNetくずし字認識サービス

次世代デジタルライブラリーに搭載されているテキストデータ

デジタル源氏物語

0 件のコメント:

コメントを投稿