タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

digitalとstatisticsに関するconsigliereのブックマーク (1)

  • 青空文庫の使用漢字を集計してみた

    青空文庫の文字セットの扱いは次のようになっている。 青空文庫のxhtmlファイルは、JIS X 0208文字セットのShift-JISで記述されている。 JIS X 0208に無いJIS X 0213に含まれる漢字は、画像外字として挿入。 JIS X 0213に無い漢字は、文中に注記として記述。 作品の著者名、タイトル、文について、JIS X 0213文字は画像外字含めUnicode文字に変換し、集計した。注記は別途抽出して集計する。 対象となる作品は、2013/4/4時点で登録されていた著作権切れの11638作品。 青空文庫のxhtml取得およびUnicode変換、集計はプログラムで行った。サンプリングして誤りがないかは確認はしているが、間違ったデータが含まれていないことを保証するものではない。

  • 1