タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Googleとデータクレンジングに関するatsushifxのブックマーク (1)

  • Google Refineは神ツールである | wrong, rogue and log

    Google Refine 2.0 http://code.google.com/p/google-refine/ Googleのデータクレンジングツール。ローカルwebサーバーで動作するアプリである。なぜローカルで動作するwebサーバにしているかというと、それには理由があるのだ。ほんと、ビックリ。 公開しているデータはタイトルやデータ形式がマチマチで、それを自分のところで統計解析するには、データレンジングをかなりやらなければいけなかった。そのためには、いままでgrepだとかfindだとかのコマンドやPythonスクリプトで半狂乱になって汚れ落としをしていたけれど、このGoogle Refineを使うとそういう問題がアホみたいに簡単に解決する。 例えば、カテゴリカルデータがセルに割り当てられているとする。記入者によってそれが略語だったりフルの名称だったりマチマチである。これを全て一つの文字

    Google Refineは神ツールである | wrong, rogue and log
    atsushifx
    atsushifx 2010/11/17
    Web上のデータを読み込んでクレンジング(名前の付け替え、数字の標準化などの整形)して出力するツール。Webからのデータまイニングを刷るなら必須ツール
  • 1