ぶっちゃけ今更感がなくもないんですが、実はこれまで自分ではほとんど異常検知・変化検知をゴリゴリやったことがなかったなぁと思ったのでした。きっかけは、時々色々な手法のテストに使っているこのUCI機械学習リポジトリのデータセット。 UCI Machine Learning Repository: Water Treatment Plant Data Set これは説明にもあるように、とある都市部の下水処理場の様々なセンサからのインプットを合わせて日次でまとめたデータセットです。この手のプラントデータセットにありがちな課題がまさにその異常検知で、要は何か不具合があった日付を事後で良いので検出したいというお話です。 異常検知自体は、以前このブログでさらっとだけ取り上げたことがあります。それは{AnomalyDetection}パッケージの紹介記事。 この時は{AnomalyDetection}が依
比戸です。 先週Jubatusの最新0.4.0がリリースされましたが、外れ値検知機能の追加が目玉の一つとなっています(jubaanomaly)。昨年PFIへ入社して初めて手がけた仕事が公開されたということで感慨ひとしおですが、便乗してあまり語られることのない異常検知の世界について書きたいと思います。以下の資料は昨年のFIT2012で使ったものです。 異常検知とは簡単にいえば、「他に比べて変なデータを見つけ出す」タスクです。お正月にテレビで繰り返し流れた、おすぎとピーコのCM(*1)がわかりやすいイメージですね。機械学習の枠組みで言えば”教師無し学習”に属します。分類や回帰、クラスタリングなど応用も多く人気も研究熱も高いタスクに比べると、マイナーです。SVMとか、Random Forestとか、Boostingとか、最近だとDeep Neural Networkとか、有名な必殺技アルゴリズム
One Class SVM とは SVM : クラス分類、教師あり学習 One Class SVM :外れ値検出、教師なし学習 異常検知:異常検知とは簡単にいえば、「他に比べて変なデータを見つけ出す」タスク (ソース: https://research.preferred.jp/2013/01/outlier/) 統数研の丸山副所長がよくおっしゃる「ビッグデータ周辺の問題の多くはサンプリングとExcelで解ける」という話が、異常検知タスクではあまり成り立たない (ソース: https://research.preferred.jp/2013/01/outlier/) クラス分類問題に用いられるサポートベクターマシンは教師あり学習ですが、1クラスサポートベクターマシンは教師なし学習です。したがって、外れ値検出のための教師データは不要です。 (ソース: http://sudillap.hate
この記事は、「Machine Learning Advent Calendar 2015」の17日目の記事になります。 「異常検知と変化検知」の本は良書だったので買うのに迷っている人のためにまとめてみました。 間違いがあれば、ご指摘頂けると幸いです。 数式を見て厳密に理解したい方は書籍購入をおススメします。 またコードに直すときはアルゴリズムが必要です。 本書籍ではアルゴリズムも記述してくれいてるのでおススメできます。 本記事ではアルゴリズムには言及しません。 この記事で得られるもの 1:異常検知における手法の種類 2:異常検知における手法をどのシーンで使用するか 3:異常検知における機械学習をどのように応用するか 以上です。 本記事の見方 利用シーンと簡単な手法を記述したので、利用シーン 異常検知の基本的な所だけ抑えたい 異常検知と変化検知の基本的な考え方 ホテリング法による異常検知 単
特異スペクトル解析法をPythonで実装したのでメモします。書籍「信号解析 馬杉著」からの引用ですが、 特異スペクトル解析法(singular spectrum analysis)は、観測信号からの主要な変動成分の分離・抽出、観測信号の変化点や不規則点の検出、観測信号からの雑音除去などを目的として、非線形信号解析分野において発展した解析手法の一つである。フーリエ級数展開やウェーブレット級数展開のように、特定の基底関数を適用したり、あるいは、ARモデルのような特定のモデルを仮定せずに、信号の構造変化そのものを解析するため、非定常信号の分離に向いている。 これをSingularSpectrumAnalysisクラスとしてpythonで実装します。 import numpy as np class SingularSpectrumAnalysis(object): """特異スペクトル解析法を行
はじめに 今回は、特異スペクトル変換法というアルゴリズムをPythonで実装します。このアルゴリズムは時系列データの異常検知に対して非常に強い力を発揮します。また、ハイパーパラメータ(人が調整する必要のあるパラメータ)が少なく、比較的チューニングが容易であることも特徴の一つです。数学の理論については深追いはせず、アルゴリズムの概要と実装まで書いていきたいと思います。 【目次】 はじめに 時系列データについて 時系列データの異常と変化点検知 特異スペクトル変換法の概要 履歴行列とテスト行列 特異値分解 変化度の定義 Pythonによる実装 特異スペクトル変換法の課題 おわりに 時系列データについて 時系列データとは、時間の推移ととともに観測されるデータのことです。昨今、様々な企業がデータ活用を推進していますが、世の中の実務の現場に貯まっていく多くのデータは時系列のデータです。 データ分析にお
井出先生の「異常検知と変化検知」を読んで,自分でも試してみたいと思ったんですが,あいにくちょうどいい時系列データが手元にないなーと思ってました.そんな折,データサイエンスLT祭りの発表の中に,Fitbitデータを可視化するものがあって*1,これはちょうどいいということで試してみましたよというていのエントリになります. 異常検知と変化検知 (機械学習プロフェッショナルシリーズ) 作者: 井手剛,杉山将出版社/メーカー: 講談社発売日: 2015/08/08メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る Fitbitってなによ Fitbitが何かしらない人のために一応説明しておくと,最近はやりの活動量計です.私が持っているのは,心拍が取得できるタイプのやつです.風呂に入るとき以外は一日中つけっぱなしで,睡眠とか運動とかを自動で判定してくれるので,手間がかからず便利です
インターン生の松井(B4)です.時系列データの異常検知手法をまとめました. 入門 機械学習による異常検知という本の7章が時系列データの異常検知を扱っています.(本書の内容をまとめたWeb記事もあります.) www.coronasha.co.jp この本のサンプルコードはすべてRで書かれているため,Python (+numpy, scikit-learn) で書き直してみました. 後半では,深層学習を用いた時系列データの異常検知手法について,知られている所をまとめました. k近傍法による異常部位検出 特異スペクトル変換法による変化点検知 深層学習を用いた異常検知手法 LSTM (Long short-term memory) を用いた手法 Autoencoder (自己符号化器) を用いた手法 結び k近傍法による異常部位検出 時系列データの異常検知手法の中でも比較的シンプルなやり方です.
背景 仕事をしているとき、業務に関係ない情報を閲覧していることって誰でもありますよね? そんなときに背後にボスが忍び寄っていると気まずい思いをします。もちろん急いで画面を切り替えれば良いのですが、そういう動作は逆に怪しまれることになりますし、集中しているときは気がつかないこともあります。そこで怪しまれずに画面を切り替えるために、ボスが近づいてきたことを自動的に認識して画面を隠すシステムを作ってみました。 具体的にはKerasを用いてボスの顔を機械学習し、カメラを用いて近づいてきたことを認識して画面を切り替えています。 ミッション ミッションはボスが近づいてきたら自動的に画面を切り替えることです。 状況は以下のような感じです。 ボスの席から私の席まではだいたい6,7mくらいです。ボスが席をたってから、4,5秒で私の席に到達します。したがって、この間に画面を隠す必要があるわけです。時間的余裕は
おしっこセンサーできました ウチの小学生の息子が家のトイレでたびたびおしっこをこぼしてしまう。俺がくどくど注意してもあんまり効果ない。そこで、代わりにAIに怒ってもらうことにした。こんな感じである。 おしっこセンサーのデモ(動画)。水を数滴床にたらすとブザーが鳴り、床を拭くと止まる。 ディープラーニングの画像認識を使い、床の上に落ちた水滴をカメラで検出してブザーが鳴る仕組みだ。夏休みの自由工作に過ぎないので精度は期待していなかったけど、意外にきちんと動いてくれて、カメラに映る範囲に水滴を数滴たらすとピッピと鳴り、床を拭くとブザーも止まる。「お父さんだってAIくらい作れるぞ」と息子に自慢したいがための工作なのだ。 でも、これ作るのはそんなに難しくなくて、休み中の3日くらいで完成した。かかったお金は、RasPiやカメラ、周辺デバイスが2万円弱、画像認識のモデル作成に使ったクラウドの料金が数10
私が2012年にニューラルネットの逆襲(当時のコメント)というのをブログに書いてからちょうど5年が経ちました。当時はまだDeep Learningという言葉が広まっておらず、AIという言葉を使うのが憚られるような時代でした。私達が、Preferred Networks(PFN)を立ち上げIoT、AIにフォーカスするのはそれから1年半後のことです。 この5年を振り返る良いタイミングだと思うので考えてみたいと思います。 1. Deep Learning Tsunami 多くの分野がこの5年間でDeep Learningの大きな影響を受け、分野特化の手法がDeep Learningベースの手法に置き換わることになりました。NLP(自然言語処理)の重鎮であるChris Manning教授もNLPで起きた現象を「Deep Learning Tsunami」[link] とよびその衝撃の大きさを表して
こんにちは。データチームの後藤です。 弊社のデータサイエンティストは職務の1つとしてファッション×機械学習の研究・開発に取り組んでいます。このファッション×機械学習の分野は世界中の大学や研究機関で精力的に研究されているため、我々も最新の動向を日々追いかけて、技術検証やサービスへの実用化を進めています。 本記事では、ファッション×機械学習の最新の研究動向を理解するための比較的新しい研究論文を紹介します。この記事を読むとファッション×機械学習の応用例を把握することができると思います。特に注目している研究の紹介には論文中の図とコメントを残しましたので、追いかける際の参考にしてください。なお、本記事内に掲載されている論文の中にはarXivのみに投稿されているものもあります。「査読を通しておらず内容が保証されない」「今後バージョンアップされ内容が変更される」といった可能性があります。ご了承ください。
この記事は、前出の本に入れる予定だったコラムのうちの一つです。 正確にいうと、本に入れる予定だったけど、メイン側で締め切りをぶっちぎっていたら、コラムを追加できるような空気じゃなくなって、書くのをやめたものです。 本の宣伝を兼ねて、没にしたコラムに日の目を見させて、あわよくば第二版で入ればいいなー、という内容です。 データサイエンティストの頭の中「偉い人たちは頭がおかしい」と言っても、それは相対的なものであるため、比較対象であるデータサイエンティストの頭の中を覗いてみましょう。 データサイエンティストは組織におけるデータ活用状況について、レベル分けして考えます。そして、基本的に前のレベルが実現できなくては、次のレベルに進むことはできないと考えています。 以下のレベル分けは私が適当に思い描いているものですが、同業者なら大よそ一緒なんじゃないかと思います。 Lv0: データ収集、ログ設計Lv1
どういう本なの?まえがきのスクリーンショットを貼りましたが、この本は多くの機械学習の本とは異なり、機械学習の実務で使えるようになるために知りたい、機械学習を含めたシステムのアーキテクチャや機械学習プロジェクトの進め方、効果検証をどうするのかということをまとめました。 めざすところのイメージ既に多く刊行されているTensorFlowやChainerでディープラーニングをしてみようというものでもなければ、機械学習の理論をわかりやすく解説するといった類のものでもありません。ゼロから作るDeep LearningやCourseraのMachine Learningで学んだけど、実際の仕事に活かすにはどうしたら良いだろう?という疑問に答えているつもりです。また、大学の講義などで機械学習は学んだけど、実際仕事で機械学習のプロジェクトを進めるときはどうすればいいんだろう?という人にも得るものがあると思い
「あなたのスマホへ最新の人工知能をお届け」――スマホのWebブラウザ上で、ディープニューラルネットワークを高速で実行できる「WebDNN」を東大が開発した。 「あなたのスマホへ最新の人工知能をお届けします」――東京大学は10月17日、スマートフォンやPCのWebブラウザ上で、ディープニューラルネットワーク(DNN)を高速で実行できるソフトウェアフレームワーク「WebDNN」を開発したと発表した。画像認識処理なら従来の約50倍の速度で実行でき、「世界最速」をうたう。Webサイトでサンプルを試せる。 DNNは画像や音声の認識・生成に有効な手法だが、計算負荷が高いため、Webサービスに組み込むためには、サーバ側で大量の計算機を用意するか、ユーザーの端末に専用アプリをインストールする必要があった。WebページにDNNの処理を行うソフトを組み込み、Webブラウザで開いて端末上で計算処理を行わせるとい
今回はadversarial exampleについて解説していきます。Adversarial exampleというのは、下図のように摂動を与えることによりモデルに間違った答えを出力させてしまうもののことです。 この例では、もともとモデルがパンダと正しく分類することができていた画像に摂動を与えることで、テナガザルと誤分類させています。しかし、人間には元の画像との違いはほとんど分からず、パンダのままに見えます。 Adversarial exampleは機械学習モデルを実用化していく上で大きな問題となります。例えば、交通標識をadversarial exampleにしてしまえば、自動運転車をだませてしまう可能性があります。 注目を集めてきている研究分野ですが、まだちゃんと調べたことがないという人も多いかと思います。今回もなるべく丁寧に解説していきたいと思います。 目次 基礎 攻撃 防御 論文紹介
機械学習をやっていると、どうしても、マナカナの画像を集めないといけない時があります。 マナカナの画像を効率的に集めるために、BingのSearch APIを使って画像のURLを取得し、 ダウンロードするようにします。 Bing API のAPIキーを取得する Bing Search API | Microsoft Azure Marketplace 月間5000トランザクションであれば、無料で使えるので、これをつかいます。 5000トランザクションもあれば十分だと思うので、右側にある、0円のものにサインアップします。 次の画面で、「前述の公開元のオファー条件とプライバシーポリシーを読み、内容に同意しました。」 のチェックを入れて、サインアップを押せばサインアップは完了です。 (microsoftのアカウントを持っている事が前提です。) サインアップが完了したら、 サービス エクスプローラー
放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。 静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広げている女子生徒の横を通り過ぎたところで突然立ち止まった。 振り返ってその先客をよく眺めると、ツインテールの頭をどこか見覚えのある黄色い本に乗せて、机に突っ伏すようにして寝ていた。カズは思わず近寄って、本の正体を確認するためにのぞき込もうとしたそのとき。 「やっぱ、わかんない! ……って、ひゃあ!?」 「わわっ」 突然跳ね起きたその生徒は、目と鼻の先にいたカズの姿にびっくりして悲鳴を上げた。カズもやはり驚きうろたえてしまった。 二人してしばらくそのまま息をのむようにして顔を見合わせていたが、そのうちどちらともなくぷっと吹き出した。 「あはは、ごめん……す
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く