エントロピーによる Stop Words 抽出とサイトコンテンツの品質指標 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/torao@github

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

エントロピーによる Stop Words 抽出とサイトコンテンツの品質指標 - Qiita

Stop Words とは多くの文書に含まれていてそれ自体が文書の特徴を表しづらい単語を表します。例えば英文... Stop Words とは多くの文書に含まれていてそれ自体が文書の特徴を表しづらい単語を表します。例えば英文における the や in, after といったような単語は典型的な Stop Words です。このような単語は検索時にノイズの原因となるためあらかじめ検索対象から除外する必要があります。この記事は選択情報量 (自己エントロピー) を使って検索時に除外すべき Stop Words を判断するための指標を求めます。なおここで扱っている数式は TF-IDF でいうところの DF (Document Frequency) と本質的に同じです。情報量/エントロピーが「文書集合全体」に対する単語の特徴を示すのに対して、TF-IDF は「ある文書」に対する単語の特徴を示す (目的は文書要約や代表語の抽出) という点で異なります。情報量とエントロピーの求め方選択情報量総文書数 $N$

ブックマークしたユーザー

nabinno2018/08/27

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx