タグ

OSSとScalaに関するmasayoshinymのブックマーク (2)

  • BirdWatch·TwitterストリーミングAPIを使ったキーワード解析ツール MOONGIFT

    Twitterにはリアルタイムに大量のメッセージが送られています。大多数は取り立てて意味のないデータかも知れませんが、その中から役立つデータをピックアップするのは大変なことです。分析している間に次のデータがきてしまい、すぐにトレンドが変化してしまいます。 そんなリアルタイムのTwitterトレンドビジュアル化をしてくれるソフトウェアがBirdWatchです。 BirdWatchの使い方 例えばJavaによる検索結果。グラフやワードリスト、ツイートが一覧になって表示されています。 下の方には一緒に出てくることの多いキーワードが並んでいます。 BirdWatchはTwitterのストリーミングAPIからデータを受信し、それをElasticSearchへ放り込んでインデックス化しています。そしてそれを検索してグラフを生成しています。ライブラリとしてAngularJS、D3.jsなどを使い、フレー

    BirdWatch·TwitterストリーミングAPIを使ったキーワード解析ツール MOONGIFT
  • 長文をあっさり短く。テキスト要約エンジン·TextTeaser MOONGIFT

    TextTeaserはScala製のオープンソース・ソフトウェア(MIT License)です。 Webサイトの基はテキストです。しかし長文を読み続けている余裕は現代人にはありません。そこで使ってみたいのがTextTeaser、テキストサマライズエンジンです。 一例。文書が段落ごとにまとまって表示されました。 日語だとうまくいかないかも知れません…。 TextTeaserは要約エンジンであり、大事な部分のテキストだけをピックアップして表示してくれます。ブックマークレットも提供されており、任意のURLに対して要約処理が実行できます。 肝になるのはそのアルゴリズムになるでしょう。“重要な部分”をいかにピックアップするかがTextTeaserの価値になります。最近はこういった大事な部分、URLだけをピックアップする技術に人気が集まっています。 インターネットでは膨大な情報が溢れているため、そ

    長文をあっさり短く。テキスト要約エンジン·TextTeaser MOONGIFT
  • 1