タグ

machine learningに関するsatzzのブックマーク (13)

  • 【新サービス】Amazon Machine Learningを試してみた #AWSSummit #AmazonML | DevelopersIO

    2015年04月09日未明(日時間午前1時頃)に行われた『AWS Summits 2015 San Francisco』のKeynote(基調講演)にて発表された機械学習サービス『Amazon Machine Learning』。 Amazon Machine Learning Management Console ちなみにこちらは速報記事的に書き上げた『サービスが出た!』エントリとなります。 Amazon Machine Learning(機械学習サービス) がAWS Summits 2015 San Francisco で発表されました。 #AWSSummit | Developers.IO セッション内での『今から使えます!』という発表があった様に、このサービス、早速利用可能となっています。という訳で早速『試してみた』エントリとしてどんな感じで使えるのかをご紹介してみたいと思います

    【新サービス】Amazon Machine Learningを試してみた #AWSSummit #AmazonML | DevelopersIO
  • データマイニングによる異常検知 - 共立出版

    大量のデータから知識の宝を掘り出す「データマイニング」という技術が注目されている。その中でも「異常検知」という問題は、セキュリティ、障害検出、情報漏洩対策、マーケティングなど幅広い応用可能性を秘めている。書はデータマイニングによる異常検知に特化して書かれた日で初めての書である。 著者は、実際に企業の研究開発の現場でデータマイニングの基礎研究から事業化へと携わってきた。書では、その豊富な経験を基に、深い数理工学的基礎に基づきながらも現実に通用するデータマイニングの実際を説き明かす。 書の特徴の1つは、「情報論的学習理論」と呼ばれる機械学習の先端理論をベースに、異常検知問題に統一的にアプローチしていることである。これによって、異常検出の一貫した方法論を展開している。 もう1つの特徴は、豊富な事例を用いて、異常検知の方法論を例解していることである。事例には、侵入検出、Webの攻撃検出、T

    データマイニングによる異常検知 - 共立出版
  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • 機械学習によるデータ分析まわりのお話

    某所で機械学習の講習会(?)のようなものをしたときの資料です. 機械学習によるデータ分析について,アルゴリズムやツールの使い方*以外*の部分で 重要だと思うことを重点的にまとめたつもりです.Read less

    機械学習によるデータ分析まわりのお話
    satzz
    satzz 2015/03/11
    わかりやすい
  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • DO++: 機械学習のチュートリアル (ICML2008)

    今年のICML2008はUAIとCOLTの共催と大規模で行なわれたようです。いろいろな方の話を伺うと楽しかったようで。 私は適当にお勧めされた論文やらを読み漁ってます。 個人的に印象深かったのはいくつかのmulti-armed bandit problemの話かな。特にこれとか。 bandit problemは強化学習の中にでてくるような問題の一つで、元々は複数のスロットマシンがあって、これから収益を最大化したいという問題。この時、やらなければいけないことは、現在持っている結果を元に各スロットのモデルを予想するとともに、自分からちょっとリスクを冒してでも他のスロットを試しにいかないといけない。スロットAが今のところ調子いいんだけど、もしかしたらさっきは出なかったスロットBの方がすごい調子がいいかもしれない。探索と最適化がまざったような話ですね。 コンピュータ囲碁で今一番強いモンテカルロ法と

    DO++: 機械学習のチュートリアル (ICML2008)
  • Introduction to Dirichlet Process and its Applications - yasuhisa's blog

    学習とモデルの複雑さ*1 混合モデルにおける混合数や多項式回帰での次数をどのようにして決めるか? AICなどの情報量基準 CVによるパラメータの決定 Nonparametric Bayesian ノンパラベイジアンは違う発想をする 柔軟でないモデルは間違った推論をしてしまう 柔軟でないというのは混合数「5」の混合ガウス分布とか、次数「4」の多項式回帰とか もっと柔軟なモデルを作ろう モデルのパラメータ数をサンプル数によって可変にしよう ある意味、パラメータ数をに持っていく ノンパラメトリックなモデルはモデル選択をする必要性がない パラメトリックなモデル 有限個のパラメータ集合について考えている 新たなデータを予測するときには、前のデータとは独立なことを想定している 有限個のパラメータによって、データの特性全てを記述する 手に入るデータの量が限られていれば、モデルの複雑さは限定されてしまう

  • ガンダムがザクより強い理由とGoogleの真の目的

    このコラムは、ASCII.jp Web Professionalと「日経ネットマーケティング」「Web担当者Forum」「Markezine」各誌の編集長が、毎回同じテーマでネットマーケティングを語るコーナーです。今回からASCII.jp Web Professionalも参加することになりました。 今回のテーマは年末らしく「2009年、印象に残ったヒトモノコト」です。他誌編集長のコラムも併せてご覧ください。 2009年の1月ころ、機械学習を作ろうと思って、国立大学の若手研究者とやりとりをしていた。「パーセプトロン」、「SVM(Support Vector Machines)」、「CRF(Conditional Random Fields)」など、一般にはなじみのない用語が飛び交う打ち合わせは刺激的で楽しかったが、先進的な分野だけに執筆の時間が取りにくい、ということになり、企画そのもの

    ガンダムがザクより強い理由とGoogleの真の目的
  • ID3 - Wikipedia

    ID3[1]は汎用目的で設計された教師あり学習アルゴリズムの一種である。その学習効率の高さと出力が決定的であることなどから、エキスパートシステムの知識獲得部分にしばしば用いられる。 概要[編集] ID3(Iterative Dichotomiser 3)は1979年にジョン・ロス・キンラン(John Ross Quinlan)により提案された。その学習方法はオッカムの剃刀の原理に基づいている。すなわち最低限の仮説による事象の決定を行う。出力は決定木の形で表される。 この方法は各独立変数に対し変数の値を決定した場合における平均情報量の期待値を求め、その中で最大のものを選びそれを木のノードにする操作を再帰的に行うことで実装される。 学習効率が良く、多数の例題から学習することが出来るが、「例題を一括に処理する必要があり学習結果の逐次的な改善が行えない」、「入力変数が連続値を取る場合は利用できない

  • IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)

    Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。 そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。 というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。 ポイン

  • スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記

    機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。 それで、今日はスペクトラルクラスタリングの話。自然言語処理以外でも利用されているが、これはグラフのスペクトルに基づくクラスタリングの手法で、半教師あり学習への拡張がやりやすいのが利点。なにをするかというとクラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法で、どういうふうに分割するかによって Normalized cut (Ncut) とか Min-max cut (Mcut) とかいろいろある。 完全にグラフが分割できる場合はこれでめでたしめでたしなのだが、実世界のグラフはそんな簡単に切れないことが往々にしてある。それで近似してこのグラフ分割問題を解くのだが、Normalized c

    スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • 1