タグ

NLPとくずし字に関するrokujyouhitomaのブックマーク (1)

  • 古文書を自動翻訳する日も近い!?江戸時代の8万字超の「くずし字 字形データ」が無償公開へ : Japaaan

    大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII)と大学共同利用機関法人 人間文化研究機構 国文学研究資料館(国文研)がすごいデータを無償公開しました! 11月17日に公開されたのは、江戸時代の古典籍に書かれたくずし字の1文字ずつの字形画像データ。その数なんと8万6176件(1,521文字種)になります。 「どういうこと?」と思ってますか?どれほどすごいことか、以下のリリース情報の画像解説を見ればわかります! データは「日古典籍字形データセット」という名称で、字形画像データのほか、文字が古典籍のどの位置に書かれているかを示す文字座標データと、原の画像データも含まれています。このデータは二次利用を歓迎するオープンデータとして無償提供中。 例えば、古典籍から抽出された「あ」のほんの一部。「あ」にも色々な癖がある。 例えば、古典籍から抽出された「か」のほんの一部。 収録

    古文書を自動翻訳する日も近い!?江戸時代の8万字超の「くずし字 字形データ」が無償公開へ : Japaaan
  • 1