[B! 単語] vndnのブックマーク

vndn id:vndn

単語に関するvndnのブックマーク (4)

[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード
vndn 2006/12/07
検索

単語

tf-idf
リンク
技術資料単語意味属性を使用したベクトル空間法
PDF file はこちら次へ: はじめに池原, 村上, 木本鳥取大学工学部知能情報工学科，鳥取市, Faculty of Engineering, Tottori University, Tottori-shi, 680-8552, Japan 概要: 従来，ベクトル空間法において，ベクトルの基底数を削減するため，ベクトルの基軸を変換する方法が提案されている．この方法の問題点として，計算量が多く，大規模なデータベースへの適用が困難であることが挙げられる．これに対して，本論文では，特性ベクトルの基底として，単語の代わりに単語の意味属性（「日本語語彙大系」で規定された約2,710種類）を使用する方法を提案する．この方法は，意味属性間の包含関係に基づいた汎化が可能で計算コストもきわめて少なく，容易にベクトルの次元数を圧縮できることが期待される．また，単語の表記上の揺らぎに影
vndn 2006/12/07
単語
リンク
tf*idf 法による特徴的単語の抜き出し - World Wide Walker
tf*idf 法による特徴的単語の抜き出し Posted by yoosee on Web at 2005-02-25 23:42 JST1 Tf Idf Ranking特徴的単語の抜き出し方法。nterm := あるドキュメント内のある単語の出現回数 maxn := ドキュメント内で最も出現頻度が高かった単語の出現回数 tf = 0.5 + 0.5 * nterm / maxn idf = log2(ドキュメントの数/対象単語が含まれるドキュメントの数) + 1 log の底は任意に変えることで idf の重み付けを変更出来ると言う数字で評価する。つまり「あるドキュメント内での出現頻度が高い(tf)」単語のうち「他のドキュメントにはあまり出現し無いもの(idf)」を「そのドキュメントに特徴的な単語」として扱うという考え方らしい。とりあえず kakasi -w で単純な単語分割したもの
vndn 2006/12/07
単語
リンク
単語の重みによるレポートの類似度計算
ここで単語の重みを考慮した一致度を計算することで，重要な単語を含んでいるレポートの類似度をより明確に評価することができる． 2.2 重みの設定本研究では単語の重みを二つの角度から設定する．一つは研究室内で重要とされる単語を重要度という角度から重みを設定し，さらに検索エンジンにおいて検索された用語を注目度という角度から各単語の重みを評価する．この重要度と注目度によって評価された重みの平均によって最終的な単語の重みを決定する． 2.2.1 重要度の評価本研究室において，研究ごとに重要に捉えている単語を選定し重みを設定する．その方法は研究室の方針や方向性に基づいて主観的に行う． 2.2.2 注目度の評価アクセスされた検索用語をTF-IDF法により重みの評価を行う．TF-IDF法は文書において，単語の重みを計算する手法である．TF(Term Frequency)とは，文書d おける単語
vndn 2006/12/07
単語

検索

類似度
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx