[B! 自然言語処理] side_tanaのブックマーク

LDA入門

[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP

side_tana 2014/02/01

入門する

リンク

なぜか唐突にブログを同時更新使用みたいな話が決まってしまったので、無理矢理エントリを書いています。自然言語処理のトピックモデルの一つの手法であるLDAを使ってみました。 LDAについては以下のスライドが詳しいので、参照ください。 LDA入門一部引用すると・白鵬が単独首位琴欧洲敗れる・人は上の文を見て相撲に関係する文であることを理解できる文中に相撲という単語は出てこないにもかかわらず・単語は独立に存在しているのではなく、潜在的なトピックを持つ単語は同じ文章に出現しやすいといったモデルです。ギブスサンプリング*1によるLDAをC++で実装したソフトが公開されています*2。Pythonによる実装*3もいくつかありましたが、今回は研究室の人が利用しているこちらを。 GibbsLDA++: A C/C++ Implementation of Latent Dirichlet All

side_tana 2014/01/31

リンク

カイ二乗値を用いた特徴選択 - 人工知能に関する断創録

相互情報量を用いた特徴選択（2010/6/19）のつづきです。今回は、相互情報量ではなく、カイ二乗値を用いて特徴語を抽出してみます。カイ二乗検定は独立性の検定によく使いますけど、特徴語の抽出にも応用できるってのははじめて知りました。結局のところ相互情報量もカイ二乗値もカテゴリと単語がどれくらい依存しているかを表す尺度なのでアプローチは似ている感じがします。IIRの13.5を参考にして実装します。カイ二乗値カイ二乗値の定義は、です。NやEが出てきますが、下のようなクロス表を用いて計算します。たとえば、単語「iPhone」とカテゴリ「IT」のカイ二乗値を求めたいとき、クロス表は下のようになります。たとえば、カテゴリがITで単語iPhoneを含む文書はデータ中にN11個あるなどと解釈します。カテゴリがITであるカテゴリがITでない計単語iPhoneを含む N11 (E11) N10

side_tana 2013/12/24

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

自然言語処理に関するside_tanaのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (4)

自然言語処理に関するside_tanaのブックマーク (3)

LDA入門

GibbsLDA++でトピック分析 - よしなしごと

カイ二乗値を用いた特徴選択 - 人工知能に関する断創録

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス