[B! LDA] yubessyのブックマーク

yubessy id:yubessy

LDAに関するyubessyのブックマーク (4)

Combing LDA and Word Embeddings for topic modeling
yubessy 2018/09/16
NLP

LDA

word2vec
リンク
トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む
LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。トピックモデルは確率モデルであるため、Perplexity の定義は明確です。一方、Coherence は「トピックが人間にとって分かりやすいかどうか」を評価する必要があるため、その算出方法について様々な議論があります。本記事では、Coherence に関する研究の中で、主要な流れを作っている、特に重要な 5 つの論文をピックアップして紹介したいと思います。 Coherence とは Coherence は、「トピックが人間にとって分かりやすいか」を表す指標です。例えば、トピックが { farmers, farm, food
yubessy 2016/01/22
あとで読む

トピックモデル

自然言語処理

LDA
リンク
Latent Dirichlet Allocations の Python 実装 - 木曜不足
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
yubessy 2014/07/20
機械学習

自然言語処理

LDA

python
リンク
LDAについて
トピックモデル（今回はLDA: 潜在的ディリクレ配分法）について、今後自分で実装したり研究に生かしたりしたいと思ったので、すごく簡単な例で考えてみました。（肝心なD（ディリクレ分布）についてはスルーしている・・・汗）何か間違いとか指摘とかあれば教えて頂けると嬉しいです。トピック同じ文書内で使われる確率が高いような、似た意味を持つ単語の集まり。例えば政治のトピックなら、「選挙」「国会」「内閣」が出やすい。トピックモデルでは、文書のトピック（文書で、どのトピックがどのくらい出やすいか）と、トピックの単語（トピックで、どの単語がどのくらい出やすいか）を求める。参考URL: http://sucrose.hatena blog.com/entry/20120322/p1 以下、具体例を用いて具体的に流れを追ってみる。参考URL: http://blog.echen.me/2011/
yubessy 2014/07/11
LDA

自然言語処理

機械学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx