タグ

単語に関するvndnのブックマーク (4)

  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

  • 技術資料 単語意味属性を使用したベクトル空間法

    PDF file はこちら 次へ: はじめに 池原, 村上, 木 鳥取大学工学部知能情報工学科,鳥取市, Faculty of Engineering, Tottori University, Tottori-shi, 680-8552, Japan 概要: 従来,ベクトル空間法において,ベクトルの基底数を削減するため,ベクトル の基軸を変換する方法が提案されている.この方法の問題点として,計算量が 多く,大規模なデータベースへの適用が困難であることが挙げられる. これに対して,論文では,特性ベクトルの基底として,単語の代わりに単語の 意味属性(「日語語彙大系」で規定された約2,710種類)を使用する方法を提 案する.この方法は,意味属性間の包含関係に基づいた汎化が可能で計算コスト もきわめて少なく,容易にベクトルの次元数を圧縮できることが期待される.ま た,単語の表記上の揺らぎに影

    vndn
    vndn 2006/12/07
  • tf*idf 法による特徴的単語の抜き出し - World Wide Walker

    tf*idf 法による特徴的単語の抜き出し Posted by yoosee on Web at 2005-02-25 23:42 JST1 Tf Idf Ranking特徴的単語の抜き出し方法。nterm := あるドキュメント内のある単語の出現回数 maxn := ドキュメント内で最も出現頻度が高かった単語の出現回数 tf = 0.5 + 0.5 * nterm / maxn idf = log2(ドキュメントの数/対象単語が含まれるドキュメントの数) + 1 log の底は任意に変えることで idf の重み付けを変更出来る と言う数字で評価する。つまり「あるドキュメント内での出現頻度が高い(tf)」単語のうち「他のドキュメントにはあまり出現し無いもの(idf)」を「そのドキュメントに特徴的な単語」として扱うという考え方らしい。 とりあえず kakasi -w で単純な単語分割したもの

    vndn
    vndn 2006/12/07
  • 単語の重みによるレポートの類似度計算

    ここで単語の重みを考慮した一致度を計算することで,重要な単語を含んでいるレポートの類似度をより明確に評価することができる. 2.2  重みの設定 研究では単語の重みを二つの角度から設定する.一つは研究室内で重要とされる単語を重要度という角度から重みを設定し,さらに検索エンジンにおいて検索された用語を注目度という角度から各単語の重みを評価する.この重要度と注目度によって評価された重みの平均によって最終的な単語の重みを決定する. 2.2.1  重要度の評価 研究室において,研究ごとに重要に捉えている単語を選定し重みを設定する.その方法は研究室の方針や方向性に基づいて主観的に行う. 2.2.2  注目度の評価 アクセスされた検索用語をTF-IDF法により重みの評価を行う.TF-IDF法は文書において,単語の重みを計算する手法である.TF(Term Frequency)とは,文書d おける単語

  • 1