この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。 間違えている箇所がございましたらご指摘いただけますと助かります。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。
主な確率分布の関連図 こんにちは、吉岡(@yoshiokatsuneo)です。 Webサービスを運営していると、利用状況を分析・予測したり、A/Bテストなどで検証したりすることがよくあります。 データを一個一個見ていてもよくわからないので、データ全体や、その背景の傾向などがまとめて見られると便利ですよね。そんなとき、データの様子を表現するためによく使われているのが「確率分布」です。 学校の試験などで使われる偏差値も、得点を正規分布でモデル化して、点数を変換したものです。 今回は、Webサービスなどでよく使われる確率分布18種類を紹介します。 それぞれ、Webサービスでの利用例やPythonでグラフを書く方法も含めて説明していきます。コードは実際にオンライン実行環境paiza.IOで実行してみることができますので、ぜひ試してみてください。 【目次】 正規分布 対数正規分布 離散一様分布 連続
株式会社キカガク 機械学習や人工知能の教育サービスを提供 フォローお待ちしております ビジネス目線の機械学習・人工知能の情報やオススメの参考書について発信しています。 代表取締役社長 吉崎 亮介 Twitter:@yoshizaki_kkgk Facebook:@ryosuke.yoshizaki Blog:キカガク代表のブログ 完成イメージ 今回は、「画像からテキストを認識する」といった解析を前提とします。 ただし、これは一例であり、ご紹介するプログラムをうまくカスタマイズしていただければ、色々なパターンに適用可能です。 「百聞は一見にしかず」 まずは完成イメージを御覧ください。 手作業によるラベル付け まずは、最終的に出来上がる動作サンプルをご覧ください。 前処理として行うことは以下の通りです。 1.切り取りたい範囲の座標をクリックで選択 2.対応するテキストを書き込みラベル付け ラベ
概要 関係データ学習の学習のために,自分で実装して理解する. ツイッターのフォローフォロワー関係を使って,グラフラプラシアンを求めスペクトルクラスタリングを行った. その結果,なんとなくクラスタリングできた. また,確率的ブロックモデルによる非対称データクラスタリングをStanによって実装しようとした. これはうまくいっていない. はじめに 関係データ学習という本を買って読んでいる. www.kspub.co.jp 本の内容は前半と後半に分かれていて,前半は関係データをスペクトルクラスタリングしたり,確率的ブロックモデルでクラスタリングしたりする話.後半は行列分解やテンソル分解の話になっている. まだ前半の途中までしか読めていないが,予想していたよりも数式が簡単だったこともあり,実際のデータに適用してみたくなった. 数年前に書いたツイッターのフォローフォロワー関係をダウンロードするスクリプ
データを扱うときに、きちんと定められたワークフローがあると助かります。具体的には、「ストーリーを伝える」(データの可視化/ジャーナリズム)ことだけを目的として分析を行いたいのか、それとも一定のタスク(データマイニング)をモデリングするためにデータに依存するシステムを構築することが目的なのか、プロセスが重要です。前もって方法論を定めておくことによって、チームの足並みが揃い、次に何をすべきか考え出そうとして無駄な時間を費やさなくて済みます。それによって早く結果が得られ、資料の公表も早くなります。 これを念頭に、Ashley Madisonの漏洩データ分析に関する 前回の記事 に続いて、私たちが現在使用しているワークフローをご紹介します。このワークフローは、データ漏洩(Ashleyのケースなど)を分析するためだけでなく、社内のデータの分析にも使用されます。ただし、重要な点として、このワークフロー
はじめに バックプロパゲーションとは、ディープモデルの学習を計算可能にしてくれる重要なアルゴリズムです。最近のニューラルネットワークではバックプロパゲーション (誤差逆伝播法) を使うことで、最急降下法による学習が愚直な実装と比べて1000万倍速くなります。 例えば,バックプロパゲーションでの学習に1週間しかかからないのに対して、愚直な実装では20万年かかる計算になります。 ディープラーニングでの使用以外にも、バックプロパゲーションはさまざまな分野で使えるとても便利な計算ツールです。それぞれで呼ばれる名称は違うのですが、天気予報から、数値的安定性を分析する時にまで多岐にわたり使用できます。実際に、このアルゴリズムは、いろいろな分野で少なくとも20回は再開発されています(参照: Griewank(2010) )。一般的な用途自体の名前は”リバースモード微分”といいます。 基本的に、この技術は
何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で本題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す
とりあえず読んでみたい、という方は:「ニューラルネットワークと深層学習」日本語訳のページをご覧ください。 Deep Learningってのがマジヤバイらしい・・・でも、取っかかりがつかめない・・・ ここ最近、Deep Learningの盛り上がりが凄いですね。私の中でも、深層学習を覚えなきゃ、置いてかれてしまい、ついには自分の仕事までAIに奪われるのでは、という危機感と、逆に今Deep Learningを使えるようになれば未来の発明者になれるのでは、という期待感が高まり、Deep Learningを勉強しなくては、と思い続けていました。 しかしながら、私はDeep Learningがどうしても理解できませんでした。これまで何十種類ものDeep Learningの教材を試してきました。しかし、Deep Learningがどうしても理解できませんでした。しかし、世の中にある文書で、なかなかとっ
ニューラルネットワーク入門 Copyright(c)1996 Akira Iwata & Toshiyuki Matubara (Iwata Laboratory Nagoya Institute of Technolgy) 0 はじめに 学習の進め方 1 神経細胞とニューラルネットワーク 神経細胞 ニューロンモデル ニューロンモデルの数式化 ネットワークモデル まとめ 2 階層型ネットワーク 2.1 パーセプトロン パーセプトロン パーセプトロンの動作と学習 パーセプトロン学習のシミュレーション パーセプトロンの限界 まとめ 2.2 バックプロパゲーション学習 最急降下法 前向き演算 後向き演算1(出力層から中間層) 後向き演算2(中間層から入力層) BPのシミュレーション BPシミュレータ まとめ 2.3 その他の階層型ネットワーク ネオ
「IoT」 (Internet of Things、モノのインターネット)と「機械学習」というキーワードをよく見てみると、ITトレンドの大きな節目が来ていることがわかります。大量データの分析方法の発達、特に機械学習の発展を背景としてデータの重要性が高まっています。そこでITベンダー各社がデータの入り口としてのIoTに注目するようになりました。データは富を生み出す鉱脈だと考えられるようになり、データという資源を押さえる競争が始まっているのです。 例えば製造業やインフラ管理の現場では、大量のマシンデータをコンピュータで処理して、異常検知、予防保守などに活用する取り組みが急ピッチで進んでいます。流通業では「オムニチャンネル」の掛け声のもと、ECサイトと実店舗の両方にまたがる顧客のデータを集めて需要予測やリコメンデーションなどに活用する動きが進んでいます。顧客の行動を観測するためにBeacon(B
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く