Code Archive Skip to content Google About Google Privacy Terms
Machine Learning Advent Calendar 2012に参加させていただきました,@yonetaniryo と申します.現在,博士後期課程2年で,コンピュータビジョン・パターン認識に興味があります.最近,クラスタリング手法の一つであるスペクトラルクラスタリングについて勉強する機会があったので,今回はそれを紹介しようと思います. 2013 1.24 いただいたコメントをもとに,図を一部更新しました. はじめに 本記事のモチベーション 本記事では,「スペクトラルクラスタリングについて何も知らない」人を「スペクトラルクラスタリングとは何かを大雑把には知っている」状態に持っていくことを目標にしています.具体的には,文献[1]の最初の方を紹介します. 本記事で扱う範囲 データのグラフ表現〜スペクトラルクラスタリングのアルゴリズム を扱います. 本記事で扱わない範囲 Normali
東京工業大学 長谷川修准教授のグループは、独自に開発した機械学習アルゴリズム「SOINN」を発展させ、オンライン学習の安定性を飛躍的に向上させることに成功しました。 "画像検索の技術はかなり実用化されておりますので、それと連動させることで、どれが大事な特徴なのかを自分で取り出してきて、この対象物といえばこういうものというのを覚える事ができます。" これらは、グループがインドで撮影した「リクシャー」の画像です。この画像の1つをロードすると、システムはまだリクシャーを学習していないので、すでに学習済みである「クルマ」と認識します。そこで、システムに「リクシャー」というキーワードを与えます。するとインターネットから「リクシャー」に関連した画像の主要な特徴を抽出して、リクシャーとはなにかを自ら学習します。学習後は、先程とは違うリクシャーの画像をロードしたとしても、その画像がリクシャーであるというこ
データマイニングについて勉強する機会があり、Python言語の練習がてら「変化点検出」と呼ばれる手法について、近似的ではありますが、試作してみました。 変化点検出とは 変化点検出とは、入力データの時系列的な振る舞いの変わり目(変化点)を検出する方法です(山西健司著『データマイニングによる異常検知』)。 データマイニングによる異常検知 山西 健司 Rank / Rating: 302282 / - ASIN: 4320018826 Price: ¥ 3,990 A unifying framework for detecting outliers and change points from time series (Google Scholar) DoS攻撃や新種のワームの発生による、急激な値の変わり目(トラフィック量の急増等)を検知するのに有効とされる手法です。 id:yokkun
岡野原です。 情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。 今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。 PFIは元々こうしたデータを分析して価値を提供する(検索エンジンとかもその範疇に入ると思います)ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。 以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。
岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。 画像認識 LSVRC 2012 [html] 優勝チームスライド [pdf], まとめスライド[pdf] Googleによる巨大なNeuralNetを利用した画像認識(猫認識として有名)[paper][slide][日本語解説] また、各分野のトップカンファレンスでDeep Learningのチュートリアルが行われ、サーベイ論文もいくつか出ました。おそらく来年以降こうした話が増えてくることが考えられます。 ICML 2012 [pdf] ACL 2012 [pdf] CVPR
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
MLTL: 機械学習テンプレートライブラリ Introduction MLTL機械学習テンプレートライブラリは,自然言語処理へ機械学習を応用する研究や,より自然言語処理に適した機械学習手法の開発を容易にするため,YANS活動の中で清水伸幸と宮尾祐介を中心として作られた C++ テンプレートライブラリです.特に,系列構造や木構造など,自然言語の構造を表現するのに適した構造に対して,様々な機械学習アルゴリズムを利用できるように設計されています. 設計の特徴として,データ構造を表すクラスと学習アルゴリズムを表すテンプレートクラスを分離し,これらの間をつなぐインタフェースを設定することで,汎用性を高めています.これにより,新たにデータ構造クラスを作成した場合に様々な学習アルゴリズムとの組み合わせを容易に試すことができ,逆に,新たな学習アルゴリズムを実装した場合には様々なデータ構造との組み合わせを試
学校での講義 Fall 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS11-7
内容は線形識別モデルの学習について(Perceptron, PA, CW, AROW, NHELDとNLP2010のtutorial + 最新のアップデート. 更新式が整理されています)、オンライン凸最適化のregret解析、sublinearなSVMの学習の話です。最近公開したjubatusの中の学習アルゴリズムの解説でもあります。 コスト関数が凸である場合のOnline Gradient Descentのregret解析の証明は美しかったので、普通はこういうのはプレゼンではやらないとおもうのですが紹介しました。 Sublinearの学習の話は今後いろいろ発展しそうです。各学習例に動的に重みをつけて優先的に学習する方法は直感的にはできそうだと昔考えてたのですが、こういう形できれいに定式化できるのだと感心しました。 IBISはそこそこ参加していますが、毎年新しい分野の問題が登場してきて面白
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
不均衡データ (imbalanced data)† 識別問題において,各クラスのデータが生じる確率に大きな差がある場合.例えば,二値識別問題で正例が 1% で,負例が 99% といった状況.はずれ値検出を識別問題として解く場合などが該当する.こうしたデータについては,予測精度が非常に低下する場合があることが知られている. 文献1は,人工データに対してニューラルネット系の手法と適用して実験. 不均衡データに対する対策は次の三種類 少ない方のクラスをオーバーサンプリングしてもう一方のクラスの大きさに合わせる 大きい方のクラスをサブサンプリングしてもう一方のクラスの大きさに合わせる 一方のクラスを無視して,もう一方のクラスをカバーするような規則を獲得 ※ 各クラスごとに異なる損失を考えるコストを考慮した学習も 1 や 2 と同様の対策とみなせる 実験的に次のような結果を報告している 線形分離でき
初めまして,大野と申します.今回から自分もリサーチブログを書く事になりました.これを期に定期的に投稿が出来ればと思っています. 自己紹介をしますと,私は学部から修士課程まで数学を専攻していました.入社したのは今年の4月ですが,PFIにはそれ以前から関わっており,昨年の夏にインターンに参加していました. インターンは今年も行っており,今年も皆さん奮闘しています.9月30日の13:00から15:00でUstream配信される予定ですので,是非ご覧になってください. さて,今回社内で「言語処理のための機械学習入門」(コロナ社)という本を用いて勉強会を開く事になりました.私自身専攻していた分野はいわゆる純粋数学で,機械学習の分野はあまり詳しくはないので楽しみにしています. この勉強会では紙と鉛筆を用いて自分で計算過程を追いながら読もうとしています.そこで,その準備として第0回チュートリアルを行いま
社内で「機械学習とパターン認識」(PRML) の読書会をやっているのだけど、計算がやっぱり難しいようでみんな苦戦中。 そんなこんなで、光成さん(@herumi さん)が PRML の数式を手抜き無しで解説するアンチョコ(虎の巻 / PRML教科書ガイド)をマメに作ってくれている。*1 PRML のための数学(PDF) 内容は PRML の2章から4章と、9章、PRMLでもっとも計算が難しいと評判の10章を対象としている。 たとえば2章のアンチョコでは、2章の中で必要とされる解析や線形代数の道具(積分の変数変換、行列の各種操作)を一通り取り上げた後、ガウス分布の最尤推定における平均や分散による偏微分という、おそらく多くの人がつまづくのだろう計算がきちんと説明されている。 また3章のアンチョコでは、Woodbury の公式やヘッセ行列を解説しつつ、エビデンス関数などを導出しているし、4章になる
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く