タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

MeCabと重要に関するmasayoshinymのブックマーク (1)

  • MeCab の IPA 辞書を UTF8 化する / 桃缶食べたい。

    MeCab の IPA 辞書を UTF8 化する 配布されている MeCab の IPA 辞書は、文字コードが EUC JP になっています。 辞書のビルド時に文字コードを指定できるので、ちょっと試してみる分にはいいのですが、単語を登録しようとしたり、再学習をさせようとすると、文字コードが統一されていないことは障壁になります。 そこで MeCab 推奨の IPA 辞書を UTF8 に変換するツールを書いてみました。 テキストファイルの文字コードを変更するだけなのでシェルスクリプトでもできますが、個人的にのちのち再利用できそうなので python を使っています。 ソースコードはこちら。 encodeDictCharset.py#!/usr/bin/env python # -*- coding: utf-8 -*- #####################################

  • 1