タグ

machine_learningとtopic_modelに関するmrknのブックマーク (5)

  • ディープラーニングだけがAIじゃない。トピックモデルの第一人者に聞く機械学習の未来 | TheWave

    ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。 ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。 しかしディープラーニングのように人間の脳を模倣しなくても、コンピューターを賢くさせる手法はほかにもある。例えば「トピックモデリング」。トピックモデリングは、多数の文書を読み込むことで傾向を

    ディープラーニングだけがAIじゃない。トピックモデルの第一人者に聞く機械学習の未来 | TheWave
  • トピックモデルシリーズ 5 PAM (Pachinko Allocation Model)

    LDAの不満点の一つとしましては、トピック間の関係性を全て無視しているところです。例えば、「政治」と「経済」なんかは相関ありそうですよね。そういうトピック間の相関を考慮したモデルとしてはCTM(Correlated Topic Model)があります。実はStanのマニュアルでもCTMは実装されています(githubではここ)が、サンプルデータとサンプルプログラムをそのまま実行しても全く収束する気配がなくて殺意がわきます。またCTMの弱点としては2つのトピックの間の関係しか考慮されていないこと、また推定する分散共分散行列のパラメータ数がトピック数の2乗に比例して大きくなっていくという点が挙げられます。 そこで今回のPAM([Li+ 2006])を少し砕いて紹介して実装したいと思います。まずはこの記事の表記法は以下になります。前回の途中から使った単語の出現数(Frequency)を今回も使い

    トピックモデルシリーズ 5 PAM (Pachinko Allocation Model)
  • 複数のトピックの時間的依存関係を考慮した時系列混合モデル

    This paper proposes a mixture model that considers dependence to multiple topics. In time series documents such as news, blog articles, and SNS user posts, topics evolve with depending on one another, and they can die out, be born, merge, or split at any time. The conventional models cannot model the evolution of all of the above aspects because they assume that each topic depends on only one prev

  • Deep Belief Nets for Topic Modeling

    Applying traditional collaborative filtering to digital publishing is challenging because user data is very sparse due to the high volume of documents relative to the number of users. Content based approaches, on the other hand, is attractive because textual content is often very informative. In this paper we describe large-scale content based collaborative filtering for digital publishing. To sol

  • 太宰治の文学の変化をTopic Modelで分析する · Naoki Orii's blog

    海外に長い間住んでいると、日語の活字を無性に読みたくなることが頻繁にある。青空文庫はその飢えを満たしてくれるサイトのうちのひとつだ。夏目漱石、芥川竜之介、宮沢賢治など名だたる作家の作品が収められているが、中でも太宰治の作品は私にとって特別な存在だ。 太宰治というと、「人間失格」のテーマ及び彼自身の入水自殺のインパクトがあまりにも強いためか、「暗い」「陰」というイメージがあるようだ。例えば、私がまだ日に住んでいた頃に軽い病気を患って1週間ほど入院していた時のことだ。元来読書が好きだったので、「久しぶりに集中してを読む時間が出来た」くらいの軽い気持ちで「太宰治全集」を読んでいたら検温をしに来た看護師の方に「大丈夫ですか」と深刻な表情で訊かれたのを今でも記憶している。実際のところ、太宰は一貫して「暗い」作品を書いていたわけではなく、「お伽草紙」「富嶽百景」「走れメロス」などの明るい作品も

  • 1