タグ

ブックマーク / taichino.com (2)

  • perlでTreeTaggerを使う – taichino.com

    英語の文章からキーワードを抽出したくなったので 形態素解析ツールを探していた所、TreeTaggerというツールを見つけました。 英語の他にもフランス語、ドイツ語など色々などにも対応しているようです。 英語以外は解りませんので、英語をインストールしました。 インストールはここから、以下のファイル群を適当なディレクトリにダウンロードしてinstall-tagger.shを走らせます。ファイルの解凍含めて全て処理してくれます。 tree-tagger-linux-3.2.tar.gz (体) tagger-scripts.tar.gz (実行スクリプト) install-tagger.sh (インストーラ) english-par-linux-3.1.bin.gz (English parameter file) english-chunker-par-linux-3.1.bin.gz (E

  • Pythonでいろんなバイナリファイルを覗いてみる – taichino.com

    プログラマをしていると、ちょくちょくバイナリデータから情報を読みたくなりますね。そんな時は、ブツブツ言いながらバイナリエディタと睨めっこすることになるわけですが、これが結構大変なので、何とか楽にならないかなぁと思って探していると、hachoirというナイスなpythonモジュールが見つかりました。このモジュールを使うとバイナリデータをパースして様々なデータを取得できます。かなり多くのデータフォーマットに対応している(現時点で70種類)のが素晴らしいです。 hachoirはいくつかのモジュールに分かれているのですが、大抵は以下をインストールすれば良いと思います。 $ easy_install hachoir_parser $ easy_install hachoir_metadata このモジュールにはhachoir-metadataというコマンドラインツールが含まれていて、コードを書かなく

    prozorec
    prozorec 2010/08/01
    これは便利そうだ
  • 1