2020年1月9日木曜日

2020年、あけましておめでとうございます

2020年、あけましておめでとうございます!
というわけで、しばらく更新しておりませんでした。おまたせしました…

このプロジェクトもほそぼそとつづいていますが、2019年はいろいろありました。
このプロジェクトに関連することとしては、ひょっとしたら欧米のグループの方たちと一緒に働けるかもしれない、日本のどこかの機関がこのプロジェクトを拾ってくれるかもしれない、という話がありました。完全に正式に決まった、というわけではないので名前などは現段階では出せませんが、いろいろ分かり次第こちらでもご報告しますね。

また、昨年はDH関連でいろいろあたらしいものが公開されていました。
そのなかで、気になるものをちょっとだけピックアップしてみました。



KuroNetくずし字認識サービス

CODHが昨年11月に公開したくずし字認識サービスです。IIIFに準拠して公開した画像上のくずし字を、一字ずつではなく、多くの文字(たとえば一頁すべての文字)をOCRしてくれます。将来は、OCRで生成されたテキストデータをダウンロードなどして再利用できるようになる、という噂もみみにしました(未確認です)。

次世代デジタルライブラリーに搭載されているテキストデータ

NDLラボが次世代デジタルライブラリーで公開されている画像データにOCRをかけ、そのテキストデータをGitHubで公開したもの。OCRの精度は今後も改良されるようです。
この様なテキストデータがあると、コーパス作成や自然言語処理 などすればいろいろ研究の役にたつのではないだろうか。公開されたテキストデータだけではなくて、さらにもう一歩踏み込んだ処理が必要になるが、ここから何かが生まれてきそう、と言う感じがいいですよね。

 デジタル源氏物語

国立国会図書館、九州大学附属図書館がIIIFに準拠して公開している画像データをTEIでマークアップしたテキスト(校異源氏物語テキストDBや青空文庫で公開されている与謝野晶子訳の源氏物語をTEIマークアップしたもの)に紐付けして、画像とテキストを見比べられるようにしたもの。

ちなみにこれらも日本学関連データベースリストに登録しました。
これらをみていると、テキストデータを生成するのに使えるツール、テキストデータそのもの、それらを流用して新しい何かを認識できる(あるいはその助けになる)ツールというものがいろいろ出ていて、それが強く加速しそう、という印象を受けます。
日本学関連データベースリストの文脈で考えると、提供されるもの・情報がさらに多様化していて、単純なデータベースだけではなくなっていますよね。
今年はどうなるのでしょう。わくわくしますね。

2019年1月14日月曜日

APIなど



皆さんお久しぶりです、みんなでつくったリストをJSONとCSV形式でダウンロードできるようにしましたので、お使いください。
また、ここに登録されたデータベースを分野別に表示するウェブサイトも作成しました。
こちらは、2019年1月11日付けのリストの内容を反映しています。内容はだいたい一ヶ月に一回ほどのペースで更新してゆきます。

2018年9月10日月曜日

どういったデータベースを登録するの?

日本学関連データベースリストに登録する際、いったいどういったものが対象になるのか、といった疑問が浮かぶと思います。
あるデータベースを登録するかしないか、は基本的に登録する人の判断にまかせます。
しかし日本で公表されたインターネットサイト凡てをここに登録するわけにもゆかないため、ここではガイドラインとして基本的な考え方を示そうと思います。


  • 基本的に一つの画像または一つのテキスト、といったアイテム・レベルでの登録はしない。
  • 日本学でつかったら便利な書誌データ・デジタルコンテンツ(文字、画像、音声、ビデオなど)を探せるツールとしてのデータベースに限る
  • 奈良地域関連資料画像データベース海住山寺所蔵電子資料集などのように、あるデータベースに別のデータベース・コレクションなどが包含される場合、なるべく包摂的な(上位の)データベースを登録する方がよい。しかし、下位データベースを登録することが有用だと判断される場合は、登録してもよい。その際は上位データベースのタイトルを「上位関連アーカイブ」の項に記入する。



2018年9月8日土曜日

使い方レシピ その1

日本学関連データベースのリストを登録したけど、どう使えるの?とお悩みのあなた、
ここでは使い方の例をひとつずつ紹介します。

今回はリストをXMLに変換したものをここに挙げます
https://drive.google.com/file/d/1fwcUykfUJE3fP5A5DmxuroT-Hoy1Nw1J/view?usp=sharing
データの文字コードはユニコード(UTF-8)です。
出力した日付は2018年9月8日です。

で、これをつかって自分のウェブサイトにリストを流用して表示する、というのをやってみたいと思います。

まずは上のリンクからXML形式でかかれたリストをダウンロードし、「エディター」などのソフトで開いてみます。













このXMLファイルはこのままでも何らかのウェブブラウザで開くができます。



上の図ははIE(インターネット・エクスプローラ)でひらいて見た図です。
このままでは文字の羅列でひたすら見えにくいため、XSL形式のスクリプトを書いてブラウザで表示したときに見やすくしてあげます。

今回は例としてとても簡単なXSL形式のスクリプトを書いてみました。これはエディターでスクリプトを書いて、それを拡張子「.xsl」を付けて保存しただけのものです。

ここでは「DDC category」の内容に従って登録されたデータベースの内容を並べ替え、表示しています。

XSLデータはこちらからダウンロードできます。










そしてこのXSLのスクリプトをつかって先のXMLデータを表示させたいので、XMLデータの2行目に以下の様なスクリプトを付け足します

<?xml-stylesheet type="text/xsl" href="SampleXSL_1.xsl"?>

これによりXMLのデータは、「SampleXSL_1.xsl」というXSLでかかれた表示形式に従ってブラウザで表示されます。
この例では「SampleXSL_1.xsl」のファイルが同一フォルダ内にあるものとして取り扱われていますが、ウェブサーバーなどに保存する場合は保存先のウェブサーバーも一緒に記述されなければなりません。

この作業の後、XMLを何らかのウェブブラウザで開くと、以下の様に、ちょっと見やすく表示されます。
















XSLの書き方によって、リストの見せ方をカスタマイズできるので、自分のニーズに合わせてXSLを書いてみてください。

また、今回使ったXMLデータをサンプルとして挙げておきます。サンプルの部分をクリックしてダウンロードして使ってください。

2018年5月8日火曜日

日本学関連データベースリスト登録フォームつくりました

…というわけでみんなでリストを作成するための登録フォームを作りました。

登録の仕方ですがまずは、登録したデータベースがすでに登録済みかどうかチェックします。
まずこのリストをクリックしてご覧ください。シートが4つありますが、そのうちの「List_all」というシートにいままで登録されたものの一覧がみえます。そこで、Ctr.+Fのキーを押すとシー内の言葉を検索することができます。
このファンクションを使ってまずは登録済みかどうかチェックをお願いします。

もし登録したいデータベースがリストの中になければ、こちらの登録フォームから 日本学関連データベースを登録してください。
登録したデータベースは自動的に「新規登録」のリスト追加されます。

また、どんなものを登録していいの?、というご質問には別のページで詳しく書いていますので、そちらを参照してください。


登録上の注意

登録の際には以下の点にご注意ください。


  • このリストに登録された内容はCC0で公開されます。リストに登録した人の著作権 は認められませんのでご注意ください。
  • 同じデータベースを二重に登録した場合、以前に入っていたデータと統合されます。
  • ここで言うデータベースには本文テキスト、イメージ画像を検索閲覧できるものだけではなく、各種メタデータを集めて検索できるようにしたものも含みます。
  • 登録したデータベースに上位関連データベースがある場合は、その上位関連データベースのURLも登録してください。


2018年4月21日土曜日

日本学関連データベースリストをみんなでつくろうプロジェクト、できました。

日本学関連データベースリストをみんなでつくろうプロジェクトを2018年からはじめました。
これは一体なんなの、と首をひねる方が多いと思いますので、まず最初に趣旨を説明します。

 日本学関連データベースと一口にいうと簡単に聞こえますが、オンラインデータベースやオンラインで閲覧できる資料が次々と誕生している昨今、これをすべて網羅し、学生や研究者に提供するのは難しいことです。そしてこれを、各大学、研究所にある日本学関連の図書館員が把握し何らかの形で提供するのはおそらく不可能でしょう。
そこで、こうした情報をみんなで書いて、集めた情報はCC0(パブリックドメイン) として共有し、みんなが好き勝手に使ってもらおう、というのがこのプロジェクトの趣旨です。

現状ではグーグルのツールを使ってリストを作成しており、リストはこのリンクから見ることができます。
https://docs.google.com/spreadsheets/d/1AGDU3PLMoI13Jap_iZKBogPC6lld24TaTJ80Fto6DhM/edit?usp=sharing

え、このリストから一体何ができるの?とおもった方、そういう方にこれからこのブログで使い方をちまちまと紹介してゆきますので、よろしくお願いします。