タグ

機械学習とLDAに関するyubessyのブックマーク (2)

  • Latent Dirichlet Allocations の Python 実装 - 木曜不足

    LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple音楽apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

    Latent Dirichlet Allocations の Python 実装 - 木曜不足
  • LDAについて

    トピックモデル(今回はLDA: 潜在的ディリクレ配分法)について、今後自分で実装したり研究に生かしたりしたいと思ったので、 すごく簡単な例で考えてみました。(肝心なD(ディリクレ分布)についてはスルーしている・・・汗) 何か間違いとか指摘とかあれば教えて頂けると嬉しいです。 トピック 同じ文書内で使われる確率が高いような、似た意味を持つ単語の集まり。 例えば政治のトピックなら、「選挙」「国会」「内閣」が出やすい。 トピックモデルでは、文書のトピック(文書で、どのトピックがどのくらい出やすいか)と、 トピックの単語(トピックで、どの単語がどのくらい出やすいか)を求める。 参考URL: http://sucrose.hatenablog.com/entry/20120322/p1 以下、具体例を用いて具体的に流れを追ってみる。 参考URL: http://blog.echen.me/2011/

  • 1