Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...Hiroki Takanashi
トピックモデルは応用範囲が広く、使えるところが多いモデルですが・・ 数式が鬼難しく分かりづらいので、なるべく数式を使わずに分かりやすくしたい。 そして備忘録にしたいってことで記事を書きました。 間違いがあれば指摘して頂けると幸いです。 トピックモデルの使える範囲 端的に言えば、文書からそれが何について記述されているかを推定するモデルです。 実は適用範囲はトピックを抽出をしていくだけではないです。 トピックに分けるだけでなく、文書の補助情報に関連付けをさせたり、ユーザーの情報に依存させたトピックのみに限定したり、トピックに相関関係を持たせたりできます。 また文書だけでなく、画像、ソーシャルネットワーク、論文の引用関係にも応用可能です。 トピックモデルの仕組み 重要な点をいくつか先に述べます。 確率分布、共役事前分布、パラメータ推定の3点がかなり重要になってきます。 1:確率分布 確率の分布な
テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい(けれど高度な数学は厳しい…)」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの?じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。 筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く