[B! LDA] InoHiroのブックマーク

http://openbook4.me/projects/193/sections/1154

InoHiro 2015/08/22

LDA
Python

リンク

第二回機械学習アルゴリズム実装会 - LDA

強化学習勉強会・論文紹介（第50回）Optimal Asset Allocation using Adaptive Dynamic Programming...Naoki Nishimura

InoHiro 2015/07/31

LDA

リンク

GibbsLDA++: A C/C++ Implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling for Parameter Estimation and Inference

GibbsLDA++: A C/C++ Implementation of Latent Dirichlet Allocation GibbsLDA++ is a C/C++ implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling technique for parameter estimation and inference. It is very fast and is designed to analyze hidden/latent topic structures of large-scale datasets including large collections of text/Web documents. LDA was first introduced by David Blei e

InoHiro 2015/07/29

brewで探したら gibbslda であった。便利

LDA

リンク

plda - Google Code

Code Archive Skip to content Google About Google Privacy Terms

InoHiro 2014/10/31

LDA

リンク

Latent Dirichlet Allocation ゆるふわ入門 - あらびき日記

この記事は abicky.net の Latent Dirichlet Allocation (LDA) ゆるふわ入門に移行しました

InoHiro 2014/10/30

LDA

リンク

トピックモデルシリーズ 4 LDA （Latent Dirichlet Allocation）

このシリーズのメインともいうべきLDA（[Blei+ 2003]）を説明します。前回のUMの不満点は、ある文書に1つのトピックだけを割り当てるのが明らかにもったいない場合や厳しい場合があります。そこでLDAでは文書を色々なトピックを混ぜあわせたものと考えましょーというのが大きな進歩です。さてこの記事の表記法は以下になります。前回のUMの場合と同一です。右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。データは前の記事参照。グラフィカルモデルは以下になります（左: LDA, 右（参考）: 前回のUM）。　見ると四角のプレートがまで伸びてきただけです。しかしながらこれが曲者でUMからかなりのギャップがあります。以下の吹き出しの順に説明していきます。 ① ここではハイパーパラメータからディリクレ分布に従って『文書の数だけ』が生成されます。このは以下のような

InoHiro 2014/10/30

リンク

Microsoft PowerPoint - Canon-MachineLearning27-jp.pptx

Canon ２０１２年９月１３日トピックモデル概論東京工業大学計算工学専攻杉山将 sugi@cs.titech.ac.jp http://sugiyama-www.cs.titech.ac.jp/~sugi/ 概要文書のモデル化は，自然言語処理や機械学習の分野で盛んに研究されている本講義では，文書のモデル化技術の発展の経緯を概観する 2 講義の流れ 1. 2. 3. 4. 5. 6. 潜在意味解析（LSA）多項混合（MM）モデルポリヤ混合（PM）モデル確率的潜在意味解析（pLSA）モデル潜在的ディリクレ配分（LDA）モデル拡張LDAモデル 3 文書単語行列：全文書データ（文書数：文書（長さ）：単語（語彙数）：文書中の単語の出現回数を要素に持つ文書単語行列（大きさ，一般にスパース）） 4 潜在意味解析（LSA）文書

InoHiro 2013/05/26

LDA
LSA

リンク

単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm

トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど，詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ．専門でないので，詳しくは参考文献を読んだほうがいいです．トピック同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり．例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい，など．トピックモデルは文書のトピックと，トピックに属する単語を推定する．単語頻度からトピックモデルまでの流れのイメージ文書をモデル化しよう→単語の頻度同義語や多義語を捉えよう≒次元削減をしよう→LSA＝SVD→以下がトピックモデル確率的にしよう→PLSI ベイズ的にしよう＝訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ

InoHiro 2013/05/26

LDA

リンク

tfidf、LSI、LDAの違いについて調べてみた

tfidf、LSI、LDAの意味、違いを調べるために、それぞれの形式のコーパスの中身を調べてみた。そのメモ。前回のおさらい前回の記事では、もっとも基本的なコーパスの中身を確認してみました。その結果、「コーパスとは、文章集合をベクトル空間に変換したもの」いうことが分かりました。今回は、基本的なコーパス以外の複数のコーパス、特に、tfidf、LSI、LDAで用いるコーパスについて、基本的なコーパスとは何が違うのかを調べます。その結果分かったコーパスの違いから、各モデルの違いを理解することを目標とします。 gensimに実装されたtfidfのコーパスの中身を見てみました今回は、「Topics and Transf ormations」を参考に進めていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %

InoHiro 2013/05/26

リンク

» The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors Matthew L. Jockers

Posted by Matthew Jockers in Text-Mining ≈ Comments Off on The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors For my forthcoming book, which includes a chapter on the uses of topic modeling in literary studies, I wrote the following vignette. It is my imperfect attempt at making the mathematical magic of LDA palatable to the average humanist. Imperfect, but hopefully mo