MeCab の IPA 辞書を UTF8 化する 配布されている MeCab の IPA 辞書は、文字コードが EUC JP になっています。 辞書のビルド時に文字コードを指定できるので、ちょっと試してみる分にはいいのですが、単語を登録しようとしたり、再学習をさせようとすると、文字コードが統一されていないことは障壁になります。 そこで MeCab 推奨の IPA 辞書を UTF8 に変換するツールを書いてみました。 テキストファイルの文字コードを変更するだけなのでシェルスクリプトでもできますが、個人的にのちのち再利用できそうなので python を使っています。 ソースコードはこちら。 encodeDictCharset.py#!/usr/bin/env python # -*- coding: utf-8 -*- #####################################