エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントロピーによる Stop Words 抽出とサイトコンテンツの品質指標 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
エントロピーによる Stop Words 抽出とサイトコンテンツの品質指標 - Qiita
Stop Words とは多くの文書に含まれていてそれ自体が文書の特徴を表しづらい単語を表します。例えば英文... Stop Words とは多くの文書に含まれていてそれ自体が文書の特徴を表しづらい単語を表します。例えば英文における the や in, after といったような単語は典型的な Stop Words です。 このような単語は検索時にノイズの原因となるためあらかじめ検索対象から除外する必要があります。この記事は選択情報量 (自己エントロピー) を使って検索時に除外すべき Stop Words を判断するための指標を求めます。 なおここで扱っている数式は TF-IDF でいうところの DF (Document Frequency) と本質的に同じです。情報量/エントロピーが「文書集合全体」に対する単語の特徴を示すのに対して、TF-IDF は「ある文書」に対する単語の特徴を示す (目的は文書要約や代表語の抽出) という点で異なります。 情報量とエントロピーの求め方 選択情報量 総文書数 $N$