ブックマーク / shuyo.hatenablog.com (4)

  • Latent Dirichlet Allocations の Python 実装 - 木曜不足

    LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple音楽apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

    Latent Dirichlet Allocations の Python 実装 - 木曜不足
  • numpy で数式を実装する - 木曜不足

    こちらもどうぞ。 第2回 Tokyo.SciPy で「数式を numpy に落としこむコツ」を発表してきました - Mi manca qualche giovedi`? numpy は R と同じように出来ると書いたけど、特にループを出来るだけ廃したければ、いろいろコツが必要。 しばらく放っておいたら忘れそうなので、メモ。 R で数式を実装する場合にも似たような考察は必要なので、参考になるかも? 隠れマルコフ with EM アルゴリズムの数式を1つずつピックアップして、それを実装するには、というチュートリアルっぽく。 まずは隠れマルコフモデルで真っ先に実装する式がこれ(Baum-Welch のフォワードステップの初項)。 一見複雑な数式だが、実は下の簡単なベクトルを求めればよいことがわかる。わか……らないと、実装できない(苦笑)*1。 z が 1-of-K、つまり (0,..,0,1,0

    numpy で数式を実装する - 木曜不足
  • 「機械学習とパターン認識」(PRML)のアンチョコ by herumi - 木曜不足

    社内で「機械学習とパターン認識」(PRML) の読書会をやっているのだけど、計算がやっぱり難しいようでみんな苦戦中。 そんなこんなで、光成さん(@herumi さん)が PRML の数式を手抜き無しで解説するアンチョコ(虎の巻 / PRML教科書ガイド)をマメに作ってくれている。*1 PRML のための数学(PDF) 内容は PRML の2章から4章と、9章、PRMLでもっとも計算が難しいと評判の10章を対象としている。 たとえば2章のアンチョコでは、2章の中で必要とされる解析や線形代数の道具(積分の変数変換、行列の各種操作)を一通り取り上げた後、ガウス分布の最尤推定における平均や分散による偏微分という、おそらく多くの人がつまづくのだろう計算がきちんと説明されている。 また3章のアンチョコでは、Woodbury の公式やヘッセ行列を解説しつつ、エビデンス関数などを導出しているし、4章になる

    「機械学習とパターン認識」(PRML)のアンチョコ by herumi - 木曜不足
  • PRML 読んでやってみた(上巻編) - 木曜不足

    今までに書いた「 PRML を読んで、やってみた」系の記事をまとめてみた。何か参考になれば幸い。 根的にとても疑り深い人(教科書の類に対しては特に)なので、「こんなん書いてあるけど、ほんまかいな〜?」という姿勢が目立つ。 また、よく「手触り」という言葉が出てくる。なんというか、「感触」がわからないと気持ち悪いのだ。基的な道具類は目をつむっていても使えるのが理想、と言えば、なんとなくでもわかってもらえるだろうか。 あと、言葉使いに無駄に小うるさい(苦笑)。多くの人にとってはどうでもいいところで妙にこだわっているかも。 下巻編はこちら。 PRML 読んでやってみた(下巻編) http://d.hatena.ne.jp/n_shuyo/20110519/prml 1章&2章 特に実装とかしてない。 ディリクレ分布のパラメータが0のとき http://d.hatena.ne.jp/n_shuy

    PRML 読んでやってみた(上巻編) - 木曜不足
    taki0313
    taki0313 2011/05/30
    あとで.
  • 1