タグ

InternetとtextMiningに関するtsupoのブックマーク (6)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

    tsupo
    tsupo 2007/11/29
    Web ページには(略)、とにかく本文以外の「ゴミ」がわんさかついているので、本文を抽出するというより「いかにゴミを取り除くか」に注力しています / セクションターゲット対応重要 ← お金の力は偉大
  • 位置表現特定API (プロジェクト:位置情報)

    JSON(callbackを指定した場合はJSONP)形式による連想配列(Content-type: application/json; charset=utf-8) { "result_select":[ //絞り込み結果 //クラスタ(緯度経度情報の配列)の配列 [ // クラスタ1 // 緯度経度情報の配列 {"text":"住所文字列", "lat":経度1(世界測地系・小数点表記: (例)135.527859)", "lng":緯度1(世界測地系・小数点表記: (例)34.685452)", "type": "address" または "spot", "weight": 重要度}, : ], [ //クラスタ2 ], [],... ], } text として「東京から名古屋駅を通過して大阪駅に行きました。大阪市中央区町に到着しました」を指定した場合。 { result_s

    tsupo
    tsupo 2007/11/29
    住所文字列(位置表現)を含むテキストを入力すると、位置表現を抽出してそのテキストの主題位置に絞り込んだ結果をJSON形式で応答するAPI
  • 「サービスは半日で完成させる」—— SETAKE・たつをさん

    「有名人身長推定サイト SETAKE」「EREK」などのサービスを作ったたつをさんはドメイン取得からサービスリリースまでは半日でこなすという。飲み会で生まれたアイデアをもとにサービスを開発することもあるため、ペンはどこにでも持ち歩く工夫をしている。 「ひとりで作るネットサービス」第11回目は、Web APIを活用して次々と小粋なサービスを開発するたつをさん(35)にお話をうかがった。「ドメイン登録からサービスリリースまで半日が目安」と言い切る彼は、どのように企画・開発・運用を行っているのか。その秘訣に迫った。 飲み会の会話から「有名人身長推定サイト」が生まれた 「作ったものはたくさんの人に使ってもらいたいですよ。エンジニアですから」と話すたつをさん。彼が作るサービスはWeb APIを使ったシンプルなものが多い。ちょっとしたアイデアが、情報の見せ方を工夫することで“意外と便利”なサービスにな

    「サービスは半日で完成させる」—— SETAKE・たつをさん
    tsupo
    tsupo 2007/06/11
    [を]の人 // 試してみるとすぐ分かるので、くだらないアイデアでもまず試す / 基本的にシンプルなサービスしか作らない / ブログ検索で、自分が作ったサービスの評判をチェック
  • ニュースリリース | ブログ等のユーザー発信型コンテンツを利用した日常メディア&マーケティング開発企業「株式会社ブログウォッチャー」設立のお知らせ ― RECRUIT

    ブログ等のユーザー発信型コンテンツを利用した日常メディア&マーケティング開発企業「株式会社ブログウォッチャー」設立のお知らせ 株式会社リクルート(社:東京都中央区、代表取締役社長 兼 CEO:柏木斉、以下「リクルート」)は、ブログ等のUGC(ユーザー発信型コンテンツ)を利用した日常メディア&マーケティングの開発、推進を目的に、「株式会社ブログウォッチャー」を設立することを決定いたしましたので、下記の通りお知らせいたします。 記 ■ 新会社設立の目的 リクルートは現在、情報誌から店舗型の相談カウンターまで、さまざまな形でB2C情報サービスを展開していますが、この数年大きなメディアへと育った、インターネットにおいては新しい技術、新しいサービスが次々と生まれています。 当社が企業理念に掲げる“新しい情報価値の創造を通じた自由で生き生きとした人間社会の実現”を目指していく上で、インタ

    tsupo
    tsupo 2007/04/03
    ネット上に存在するユーザーが発信するコンテンツを、東京工業大学の奥村学研究室のテキストマイニング技術とリクルートの編集ノウハウを用いてユーザーの声で作られた雑誌感覚のサイトを提供
  • [を] テキストマイニングを使う技術/作る技術

    テキストマイニングを使う技術/作る技術 2006-12-28-3 [書評・感想] テキストマイニングの分野で有名なIBMの那須川哲哉氏による入門書。 全編具体的で分かりやすい。 ■那須川哲哉 / テキストマイニングを使う技術/作る技術 ―基礎技術と適用事例から導く質と活用法 テキストマイニングというと、ブログや掲示板での特定の何かの評判情報 検索など、近年その活躍の場が一般ユーザの目に付くところまで広がって 来ている。 このはテキストマイニングを支える技術、事例紹介、技術以外の側面 (運用など)はもちろん、「テキストマイニングとは何か」ということ についても初心者にも分かりやすいよう、かなり丁寧に解説されている。 一番重要なポイントが最初の方で述べられてる。これ、大切。 [...]テキストマイニングというものは、あくまで人間が膨大な文書データ を有効活用するた

    tsupo
    tsupo 2006/12/29
    あくまで人間が膨大な文書データを有効活用するためのツールであり、データ内容を解釈して判断を下すのは人間 / 分析目的をしっかり設定しないと役に立つものは得られない
  • [ThinkIT] 第3回:テキストマイニング技術の全貌 (3/3)

    これまでの処理の結果を元にして、トピックス別の集計が可能になる。その結果、「どんなトピックスが何人から寄せられているのか」「全体のどのくらいの割合を示しているのか」を瞬時に把握することができる。 TRUE TELLERでは、単語ランキング、主な話題機能などで全体集計結果を提供し、テキストデータを俯瞰することができる。

    tsupo
    tsupo 2006/12/25
    TRUE TELLER / 単語ランキング、主な話題機能などで全体集計結果を提供し、テキストデータを俯瞰する / 文章は形態素解析、同義語の統一、統計処理を経て分析が可能になる
  • 1