自然言語処理に関するside_tanaのブックマーク (3)

  • LDA入門

    [DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP

    LDA入門
  • GibbsLDA++でトピック分析 - よしなしごと

    なぜか唐突にブログを同時更新使用みたいな話が決まってしまったので、無理矢理エントリを書いています。 自然言語処理のトピックモデルの一つの手法であるLDAを使ってみました。 LDAについては以下のスライドが詳しいので、参照ください。 LDA入門 一部引用すると ・白鵬が単独首位 琴欧洲敗れる ・人は上の文を見て相撲に関係する文であることを理解できる 文中に相撲という単語は出てこないにもかかわらず ・単語は独立に存在しているのではなく、潜在的なトピックを持つ単語は同じ文章に出現しやすい といったモデルです。 ギブスサンプリング*1によるLDAをC++で実装したソフトが公開されています*2。Pythonによる実装*3もいくつかありましたが、今回は研究室の人が利用しているこちらを。 GibbsLDA++: A C/C++ Implementation of Latent Dirichlet All

    GibbsLDA++でトピック分析 - よしなしごと
  • カイ二乗値を用いた特徴選択 - 人工知能に関する断創録

    相互情報量を用いた特徴選択(2010/6/19)のつづきです。今回は、相互情報量ではなく、カイ二乗値を用いて特徴語を抽出してみます。カイ二乗検定は独立性の検定によく使いますけど、特徴語の抽出にも応用できるってのははじめて知りました。結局のところ相互情報量もカイ二乗値もカテゴリと単語がどれくらい依存しているかを表す尺度なのでアプローチは似ている感じがします。IIRの13.5を参考にして実装します。 カイ二乗値 カイ二乗値の定義は、 です。NやEが出てきますが、下のようなクロス表を用いて計算します。たとえば、単語「iPhone」とカテゴリ「IT」のカイ二乗値を求めたいとき、クロス表は下のようになります。たとえば、カテゴリがITで単語iPhoneを含む文書はデータ中にN11個あるなどと解釈します。 カテゴリがITである カテゴリがITでない 計 単語iPhoneを含む N11 (E11) N10

    カイ二乗値を用いた特徴選択 - 人工知能に関する断創録
  • 1