Machine Learning: a Probabilistic Perspective by Kevin Patrick Murphy. MIT Press, 2012. See new web page.
先日、NTTと共同研究開発したJubatusを公開しました。 OSSで公開されてますので、興味がある方は使ってみるなり、ソースコードを眺めるなり、できればプロジェクトに参加していただけたらと思います。 Jubatus(ユバタス)は、大規模分散上でリアルタイムで機械学習を行うためのフレームワークです。 このプロジェクトは元々、機械学習やデータ解析が好きなPFIと、ネットワークやシステム運用実績が豊富で技術力があるNTT情報流通プラットフォーム研究所と組んで何かできないかということで始めました。 「大規模分散」+「リアルタイム」+「深い解析」という三つの特徴を持った上でデータを分析するためにどのようなアーキテクチャが考えられて、その上でどのような解析ができるのかというのを日々試行錯誤して作っています。 今回はリリース第1段ということで、手法としては分類(教師有学習の多クラス分類)に絞ってOSS
とある確率でカオスでタイムマシンな勉強会を 7/30 にサイボウズにて開催。 お疲れ様でした&ありがとうございました>各位 会のテーマに合うかなあと心配しつつ、以前 TokyoNLP #1 にて発表させていただいた、CRF(Conditional Random Fields) を使った Web 本文抽出ネタを焼き直し&プチバージョンアップして発表した。 その資料がこちら。 CRF を使った Web 本文抽出 View more presentations from Shuyo Nakatani 最初は、元の資料そのまま持って行こうかな、と思っていたのだけど、結局結構それなりに改訂版に。 実装の方も少し更新してあって、最急降下法+FOBOS L1 に対応していたり、素性も約3倍に増えていたり。 データは……相変わらず少ないけど(苦笑)、訓練データとテストデータを分けて、定量的な結果を資料にま
実験結果を見ると,キャッシュヒット率が 90% を超えるくらいに調整したとき,キャッシュに含まれる索引語の割合は全体の 1% にも満たないことが分かります.つまり,空間効率の低いデータ構造をキャッシュとして採用したところで,索引語辞書のサイズにはほとんど影響しません.一方で,時間効率の高いデータ構造を採用すれば,索引構築にかかる時間を大幅に短縮できます. たとえば,キャッシュヒット率を 90% に調整すると,キャッシュが索引語 1 つあたりに必要とするサイズが本体のそれと比べて 5 倍でも,全体の 5% にも満たないということです.また,キャッシュの参照時間が本体の 1/5 になると仮定すれば,キャッシュミスしたときはキャッシュと本体の両方を参照することになるものの,1/5 x 90% + 6/5 * 10% = 30% にまで平均参照時間を短縮できることになります. 索引語辞書の構成はど
社内で「機械学習とパターン認識」(PRML) の読書会をやっているのだけど、計算がやっぱり難しいようでみんな苦戦中。 そんなこんなで、光成さん(@herumi さん)が PRML の数式を手抜き無しで解説するアンチョコ(虎の巻 / PRML教科書ガイド)をマメに作ってくれている。*1 PRML のための数学(PDF) 内容は PRML の2章から4章と、9章、PRMLでもっとも計算が難しいと評判の10章を対象としている。 たとえば2章のアンチョコでは、2章の中で必要とされる解析や線形代数の道具(積分の変数変換、行列の各種操作)を一通り取り上げた後、ガウス分布の最尤推定における平均や分散による偏微分という、おそらく多くの人がつまづくのだろう計算がきちんと説明されている。 また3章のアンチョコでは、Woodbury の公式やヘッセ行列を解説しつつ、エビデンス関数などを導出しているし、4章になる
予約したもののインフォバーを手に入れられない海野です. 人間の高度な知的処理の一つが、推論処理です.今日はその推論を、述語論理と機械学習の組み合わせで模倣したMarkov Logic Networkという手法と、そのOSS実装であるAlchemyの紹介です. 鳥とはなんですか?という質問に対してどう答えるでしょうか.大雑把には、以下のように考えるでしょう. 鳥とは、空を飛ぶ動物です. この回答に対して、「ペンギンは飛ばないよ」と反論する人がいるかも知れません. 鳥とは、くちばしを持った動物です. すると、「カモノハシは鳥じゃないよ」と言われるでしょう.人間は初めて見た生き物が鳥かそうじゃないか判断するとき、どうしているのでしょうか.思うに、少数の規則(飛ぶかどうか.くちばしをもつか)から総合的に判断しているように思われます.人間の推論というのは概ね以下のような特徴を持っているのではないかと
機械学習・パターン認識方面の勉強初めてから4ヶ月ほど立ちました。最近はnaoya_tさん主催のPRML読書会に参加させて頂いています。 来週末8/29の第6回読書会ではニューラルネットワークの章の発表を担当することになったので、Rを使ってサンプルプログラムを組んでみました。参考にしたのはPRML5.1〜5.3の範囲で、sin関数からサンプリングした点データをニューラルネットワークを使って誤差逆伝播法で学習し、元のsin関数を近似します。 学習前の初期状態が以下の図。赤字が元の関数(線)およびサンプルデータ(点)で青字がニューラルネットワークの出力です。 で、学習後の状態が以下です。 いい感じに再現できています。 以下ソースコード。 library(animation) #number of training data N <- 50 #number of hidden unit s <-
Source: Managing and mining graph data, Springer (2009) Abstract: Graph structures provide a general framework for modeling entities and their relationships, and they are routinely used to describe a wide variety of data such as the Internet, the web, social networks, metabolic networks, protein-interaction networks, food webs, citation networks, and many more. In the recent years there has been a
オープンソースのSVMソフトウェアの基本デフォルトの設定で比較などをしてみた。 利用データはLIBSVM Data: Classification, Regression, and Multi-labelのa9aとnews20.binaryを利用した。 データセットの詳細は以下のようになっている データセット名 訓練データ数 テストデータ数 データの次元 a9a 32561 16281 123 news20.binary 15000 4996 1355199 なお、news20.binaryでの訓練データとテストデータの作成については id:n_shuyoさんの記事を参考にした。 比較に用いたソフトウェアは以下の5つ LIBSVM リンク SVM-Light リンク TinySVM リンク SVM-perf リンク LIBLINEAR リンク 測定結果は以下のようになった。パラメータの設定
When the organizers of the Netflix Prize contest announced late last week that one team had met the requirement for the $1 million Grand Prize, Yehuda Koren, a member of the seven-person multinational team, was in Paris to present a paper at KDD-09, the 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. The ideas he laid out won the conference's Best Paper Award — and, not coincide
August 2009 8 x 9, 1208 pp., 399 illus. $95.00/£62.95 (CLOTH) Text ISBN-10: 0-262-01319-3 ISBN-13: 978-0-262-01319-2 Probabilistic Graphical Models Principles and Techniques Daphne Koller and Nir Friedman Table of Contents and Sample Chapters Most tasks require a person or an automated system to reasonto reach conclusions based on available information. The framework of probabilist
September 2001 6 x 9, 435 pp. $40.00/£29.95 (PAPER) Short ISBN-10: 0-262-60042-0 ISBN-13: 978-0-262-60042-2 Graphical Models Foundations of Neural Computation Edited by Michael I. Jordan and Terrence J. Sejnowski Graphical models use graphs to represent and manipulate joint probability distributions. They have their roots in artificial intelligence, statistics, and neural networks.
Distance education and its importance for the future of education with reviews on eleap software. The education distance learning (ODL) is a teaching method that aims to offer a complete learning process, dynamic and efficient through technological resources. Here, I can say that distance education works from a virtual integration between a student and a distance learning tutor, separated by time
organized by the University of Cambridge, Microsoft Research and Pascal University of Cambridge, 29 August - 10 September 2009 The 13th Machine Learning Summer School will be held in Cambridge, UK. This year's edition is organized by the University of Cambridge, Microsoft Research and PASCAL. The school will offer an overview of basic and advanced topics in machine learning through theoretical and
my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) If you compare vision research with NLP research, there are a lot of interesting parallels. Like we both like linear models. And conditional random fields. And our problems are a lot harder than binary classification. And there are standar
広尾で某書籍の輪講会.同種の研究をI田氏がやろうとしたが,いつも困難な問題から逃げてしまってまったく進展しなかったのでよい機会だったし,以前から私もこの問題を考えることは重要だと思っていたので渡りに船だった.しかし,決して公の場で勧誘するなと注意されていたのに,これだけの人達が集まるとは…しかも,私と違って立派な業績がある人が多く,それらの人達に最初にいろいろ講演してもらったのだが,K嶌氏達主催者もさぞかし大変だったろう.完全にオープンな勉強会ではないので,内容は書かないが,書籍の内容といい,参加者といい,期待度は高い. なお,amazon.co.jpでこの本は一時期品切れになっていたと聞いて,帰ってチェックしたら在庫があった…まさかこの輪講会で大量に売れたために大量に仕入れてたりして…(笑)しかし,これは現在の検索システム,データマイニング,推薦システムに関わっている技術者にとっては,本
米国のオンラインDVDレンタルサービス「Netflix」が、現在利用しているレコメンデーションシステムの性能をはじめに10%改善したチームに100万ドルの賞金を与えるという触れ込みで始まったnetflix prizeは当初の予想よりも時間がかかったが、つい最近最初からトップを走り続けていたbellkorと、上位陣のコラボレーションのチームが10%の壁を破った(leaderboard)。 彼らの手法は「非常に多くの様々な種類のレコメンデーションシステムの結果を混ぜ合わせる」という愚直だがいかにも精度が出そうだという方法を採用している(、と昨年度の結果からは思われる。近々詳細は出るだろう。) 実際に使ってとどめになったかどうかは分からないが、彼らのチームの主要メンバーがKDDで新しい手法を発表しており、単一の手法による最高精度を達成している。ちなみに今年のKDD(データマイニング系の学会の最高
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く