tokyor-document - Presentation Transcript Rによる文書モデルの可視化 ~ディリクレ分布、混合ディリクレ分布、LDA #tokyoR @nokuno 自己紹介 2 Twitter: @nokuno はてな:id:nokuno 自然言語処理勉強会を主催(第2回は9/25開催) PRML/R/Python/Hadoopなど 2002~2006:コミケで同人ゲーム売ってた 2007~2008:未踏でSocial IMEの開発 2009~現在:Web業界勤務(←今ここ) 今日の話題 3 文書モデルとは Wikipediaの可視化 生成モデルの可視化 ディリクレ分布 混合ディリクレ分布 LDA 文書モデルとは 4 文書の生成確率をモデル化 単語の多項分布を利用するのが一般的 文書を、その文書が含む単語の割合で