日本語ウェブコーパスを作成するために開発したツールを改修したものを公開しました.テキストの抽出と N-gram コーパスの作成くらいしかできませんが,何かに使えるかもしれません.テキストの抽出については,http://s-yata.jp/apps/nwc-toolkit/text-extractor の中身になっています. プロジェクト Google Code Archive - Long-term storage for Google Code Project Hosting. ドキュメント http://nwc-toolkit.googlecode.com/svn/trunk/docs/index.html ライブラリをインストールする方法が環境によって異なることもあり,ドキュメントの作成には思いのほか手間がかかりました. 追記(2010-11-03):バグを修正しました.修正したもの