SSII2021 [TS3] 機械学習のアノテーションにおける データ収集 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII
2011年10月26日 報道関係者各位 プレスリリース 日本電信電話株式会社 株式会社プリファードインフラストラクチャー ==================================================== ビッグデータのリアルタイム処理を可能にする 大規模データ分析基盤技術を世界に先駆けて開発 ~10月27日よりオープンソースソフトウェアとして公開~==================================================== 日本電信電話株式会社(東京都千代田区、代表取締役社長:三浦 惺、以下「NTT」) と株式会社プリファードインフラストラクチャー(東京都文京区、代表取締役社長:西川 徹、以下「PFI社」)は、ビッグデータ*1と呼ばれる大規模データをリアルタイムに高速分 析処理する基盤技術「Jubatus*2」(第1版)を開発しま
Jubatus English Japanese
Jubatus : オンライン機械学習向け分散処理フレームワーク¶ Jubatusは「分散したデータ」を「常に素早く」「深く分析」することを狙った分散基盤技術です。 Jubatusの名前の由来は、俊敏な動物であるチータの学術名からの命名で、「ユバタス」と読みます。株式会社Preferred NetworksとNTTソフトウェアイノベーションセンタが共同開発した、日本発のオープンソースプロダクトです。 最終的に全ての人にスケーラブルなオンライン機械学習フレームワークを提供することがJubatusの目標です。 Jubatus は以下の特徴を持ったオンライン機械学習向け分散処理フレームワークです。 オンライン機械学習ライブラリ: 多値分類、線形回帰、推薦(近傍探索)、グラフマイニング、異常検知、クラスタリング 特徴ベクトル変換器 (fv_converter): データの前処理と特徴抽出 フォルト
先日、NTTと共同研究開発したJubatusを公開しました。 OSSで公開されてますので、興味がある方は使ってみるなり、ソースコードを眺めるなり、できればプロジェクトに参加していただけたらと思います。 Jubatus(ユバタス)は、大規模分散上でリアルタイムで機械学習を行うためのフレームワークです。 このプロジェクトは元々、機械学習やデータ解析が好きなPFIと、ネットワークやシステム運用実績が豊富で技術力があるNTT情報流通プラットフォーム研究所と組んで何かできないかということで始めました。 「大規模分散」+「リアルタイム」+「深い解析」という三つの特徴を持った上でデータを分析するためにどのようなアーキテクチャが考えられて、その上でどのような解析ができるのかというのを日々試行錯誤して作っています。 今回はリリース第1段ということで、手法としては分類(教師有学習の多クラス分類)に絞ってOSS
はじめに 先日の Jubatus Casual Talks で、OpenCVを使った一般物体認識の概要と、注意しなければならないポイントについて発表させていただきました。 Jubatus opencv from Kazuya Gokita 詳しくは上記のスライドを御覧ください。 一般物体認識とは 要するに、画像を与えた時にそこに何が写っているのかを推定することです。 ゾウの写真ならゾウ、自転車の写真なら自転車だとコンピュータに判断させるのが目的です。 ところが、これがなかなか難しい問題であまりうまくいっていません。 Googleの画像検索は一見この問題を解決しているように見えますが、画像検索の場合はその画像の周辺にあるテキスト情報が利用できるのでちょっと違います。 たとえば、写真のすぐ下に「ウサギかわいい」って書いてあったらたぶんウサギの写真だろうと判断できます。 このような情報が与えられ
写真●住友精密工業が機械学習技術の実証実験を行っている、大分県の農家でのみかん栽培の様子。同社製のセンサーネットワーク機器「neoMOTE」を用いている。 センサーネットワーク事業を手掛ける住友精密工業は、同社の農業向けセンサーネットワークサービスの実証実験に、Preferred Infrastructure(PFI)の機械学習エンジン「Jubatus」を採用した(PFIによる発表資料)。設備の異常検知や最適制御などに用いる。 実証実験では、大分県の農家と協業し、みかん栽培のビニールハウスの温度管理や空調設備の異常検知にJubatusの適用を試行している(写真)。現在はセンサーで取得したデータに対し、オフラインで学習エンジンを適用しているが、今後、実活用することを狙う。 最初に試行しているのは、空調設備の異常検知である。一般にハウスみかんの栽培では、みかんの成長ステージに合わせて農家が1~
Jubatus : オンライン機械学習向け分散処理フレームワーク¶ Jubatusは「分散したデータ」を「常に素早く」「深く分析」することを狙った分散基盤技術です。 Jubatusの名前の由来は、俊敏な動物であるチータの学術名からの命名で、「ユバタス」と読みます。株式会社Preferred NetworksとNTTソフトウェアイノベーションセンタが共同開発した、日本発のオープンソースプロダクトです。 最終的に全ての人にスケーラブルなオンライン機械学習フレームワークを提供することがJubatusの目標です。 Jubatus は以下の特徴を持ったオンライン機械学習向け分散処理フレームワークです。 オンライン機械学習ライブラリ: 多値分類、線形回帰、推薦(近傍探索)、グラフマイニング、異常検知、クラスタリング 特徴ベクトル変換器 (fv_converter): データの前処理と特徴抽出 フォルト
先週の月曜日にお披露目会的なものがあったので行ってきた。 ちょいと前半戦は見れなかったので、肝心なところを見てない説もあり、その辺は割り引きたいが、まず印象まで。 Jubatus http://jubat.us/ 基本的なラインは、言ってみれば、分散CEP+機械学習というコンセプト。(ある程度の)リアルタイム性を重視して、データの使い捨てをベースにして、スケールアウト戦略を選択している。溜めてから学習するのではなく、ストリーミングしながらの学習というコンセプトに見える。アーキテクチャはN:Nな感じ。耐障害性はどこまで見ているのか?ってのはあるが、まずはスループットを優先したのと、ボトルネックが発生しないように割と気を使っているのはわかる。おそらくもっとも重視したのは「使い勝手」だろう。 まず、現状の日本のITでは機械学習は使いこなすだけ精一杯という中で、アーキテクチャや仕組みまで考えたフレ
はじめまして。 システム開発・コンサルティング部の potter と申します。日頃は smarticA!DMP の運用をしております。 さて、 soonraah ガエルの記事を読んで「自分も何かやりたい!」と思い Jubatus という オンライン機械学習向け分散処理フレームワーク を使ってみました。今回は先月に新機能として追加されたばかりのバースト検知を試してみます。 ではでは、少しの間お付き合い頂けますと幸いです! バースト検知とは? バースト検知って何?という方もいらっしゃるかと思いますが、 Jubatus Blog にも記載されているように「特定のキーワードを含むツイートが突然増えたことを検出する」といったことを可能にする技術です。 具体的な例として「金曜ロードショー ラピュタでバルス!現象」1について考えてみます。 Twitter ストリーム上のツイート系列を考えた時、「バルス」
jubatus 入れると、大規模なオンライン機械学習ができるらしいです。 だけど、入れるのめんどいですね。依存関係とかだるい。 だから、 yum っときました。 (テスト用VMなどに入れて遊んでください。) RHEL5互換・・・つまり、centos5系とかだと、以下3行をコピれば入ります。 rpm -Uvh http://ftp.iij.ad.jp/pub/linux/fedora/epel/5/x86_64/epel-release-5-4.noarch.rpm rpm -Uvh http://rtilabs.net/files/repos/yum/rh/5/x86_64/rtilabs-release-1-0.noarch.rpm yum install --enablerepo=rtilabs jubatus jubatus-python-client OR RHEL6互換・・・つま
NTTとPFIから、大規模データ分析基盤のJubatusがオープンソースとして公開されました。 http://preferred.jp/2011/10/jubatus.html ホームページのチュートリアルには、動作環境としてLinux2.6以降とありますが、Macでも動きましたので、MacPortsとしてまとめてみました。ただし、まだ動作検証をあまりしていないので、おかしなところがあるかもしれません。 なお、Debian Linuxでのインストール手順の記事も参考になりました。 Jubatusのインストールと若干の動作確認 - kuenishi's blog インストールにあたって必要なソフトがいくつもありますが、そのうちの pkgconfig, py-msgpack, msgpack, libzookeeper, ux-trie, mecab-utf8のportはすでにあり、今回新たに
(報道発表資料) 2012年7月10日 データ分析アイデアコンテスト 「Jubatus Challenge Japan 2012」 の開催 ~ 日本発ビッグデータ分析オープンソースソフトウェア 「Jubatus(ユバタス)」 による分析コンテストの開催 ~ URL: http://www.facebook.com/JubatusChallenge2012 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:鵜浦 博夫、以下NTT)は学生を対象としたデータ分析アイデアコンテスト「Jubatus Challenge Japan 2012」の参加者募集を本日より開始いたします。 本コンテストでは、NTTが2011年10月よりオープンソースソフトウェアとして公開しているビッグデータ*1のリアルタイム処理を可能とするJubatusを用い、データ分析のアイデアおよび分析内容を競って頂きます。本
* GOTO Berlin Conference 2013 Toru Shimogaki / NTT DATA CORPORATION "The realtime processing for web services" In Recruit Technologies, we are now concentrating on using streaming data processing and machine learning to analyze online user behavior and improve our services. We have a packaged solution named "Genn.ai" to make these technologies widely available in Recruit group. It will be opensour
昨日行われたJubatus Workshopに参加してきました。ref. 第一回 Jubatus Workshop #jubatus - Togetter JubatusOfficial Presentations 以下は僕の解釈も含めたまとめ ユバタスの必要性 データはこれからも増加していく。今多いってことより、今後どんどん増えるということが重要な問題 データの活用は 蓄積→理解→予測。世の中はようやく蓄積が出来るようになり理解に向かい始めた段階. CPUの速度が向上する速度よりも、データ量の増える速度の方が大きい。必然的にデータに対する処理で並列性を考えなければいけない状況が増えてくる。 既存のシステムとの差 既存のシステムでは 1. リアルタイム性の確保 2. データの水平分散処理 3. 高度な解析 の3つを兼ね備えることが困難。 MapReduceは処理の自由度は高いが基本的にバッ
皆さんはじめまして、海外旅行に行っていた石井です。旅行中にひどくお腹を壊し、外国の病院にかかるという貴重な経験ができました。 さて、今回はjubatusというソフトウェアの入門記事を書いてみたいと思います。 jubatusとは株式会社Preferred InfrastructureとNTTソフトウェアイノベーションセンタが共同開発したOSSで、大規模データに対してリアルタイム性のある機械学習が行えるソフトウェアです。弊社でもつい最近、hadoop, mahoutを利用したバッチによる機械学習から、jubatusを利用したリアルタイムな機械学習を行うようにしました。 今回は簡単なクライアント – サーバー型のリアルタイムリコメンダーをjubatusを使って作ってみたいと思います。データはMovieLensが公開しているデータを使わせていただきます。 MovieLens | GroupLens
Jubatus(ユバタス)は、大規模データをリアルタイムに解析するための、”大規模分散リアルタイム機械学習基盤”です。 人類が取り扱うデータ量は、年々指数関数的に増大しています。「ビッグデータ」と呼ばれるこうした巨大なデータがあらゆる分野で生まれ始めています。これらは単に生み出されるデータ量が増えているということを示すだけではありません。従来は処理対象ではなかったような詳細なログデータや多種多様なセンサーの生データも含まれ、またテキストや動画像のような非構造化データの割合が大きくなっています。一方で、こうした膨大なデータから有用な情報を見つけ出すことが、計算能力の面でもデータ解析技術の面でも可能になりつつあります。しかしながら、Hadoopを含む既存フレームワークの多くは集計やレポーティングなどの単純な分析バッチ処理にとどまっています。 大量のデータをリアルタイムで効率的に処理し、いち早く
(追記)もう0.2.0がリリースされてるので微妙に違ってたりします。本家をみてね。 Jubatusは依存ライブラリが多く割とインストールに手間取りそうな予感がしますね。そこでDebian stableでのインストール手順をば参考に。まずは前準備。 $ sudo aptitude install pkg-config libmsgpack-dev libgoogle-glog-dev aptで入るのはこれくらいですね。mecabはOptionalですが日本語いじるときは何かと便利です。 $ sudo aptitude install mecab-jumandic-utf8 libmecab-dev mecabはすばらしいプロダクトですね!(謎) 次にpficommonです。これはBetter & smaller boostだと考えるとよいです。 $ cd /tmp $ git clone g
海野です。 先週末、6/2(日)にフューチャーアーキテクト様セミナールームにて、 Jubatus Casual Talks #1 を開催しました。 開発者メンバー以外の方に、Jubatusについて話していただく初めてのイベントとなりました。 110名の募集に対して、98名の申し...
もう二か月以上前のことだが、とあるところで、Jubatusでオンライン分類ができるならペアワイズのランク学習もできそうだという話をした。いろいろあって時間がかかってしまったが、実装と簡単な評価をしたのでまとめておく。 以下の評価で用いた実装は"y-tag/jubatus"のrankingブランチにある。現時点では、このブランチは0.4.3のリリース直後をベースとしている。 今回の実装の参考文献として、2009年のNIPSで発表された以下の論文が挙げられる。 Large Scale Learning to Rank また、以下の資料も非常に参考になる。 Large Scale Learning to Rankを読んだ - 射撃しつつ前転 Confidence Weightedで ランク学習を実装してみた DSIRNLP#1 ランキング学習ことはじめ データセットとして、LETORのOHSUM
2012/12/7にComSysで招待講演した際のプレゼン資料です。2013/1時点でのJubatusに関する全部入り資料になっています。 概要:Hadoopは非常に成功した大規模データの分散処理基盤である一方、データを貯めないリアルタイム処理や、統計的な手法で知見や予測モデルを得る機械学習技術のサポートは限定的である。Jubatusは、それらHadoopに足りない「分散・リアルタイム・機械学習」を実現するためのOSSフレームワークとして2011年にリリースされた。その技術的特徵は、オンライン学習アルゴリズムを分散化し、かつ分散環境でコストの高いデータ共有を排除してコンパクトな機械学習モデルのみを緩やかに共有するMix操作を中心とした計算アーキテクチャを採用していることにある。本講演ではその動作原理を中心にJubatusの裏側を紹介する。
An online and parallel machine learning framework and library. Official blog written by project members
NTT PF研(現ソフトウェアイノベーションセンタ SIC)と株式会社Preferred Infrastructure(PFI)は2011年に大規模リアルタイム解析エンジンJubatusをオープンソースソフトウェア(OSS)として公開し,現在様々なビッグデータ活用の現場での利用検証を進めている.本稿ではJubatusの公開までの経緯,及びその過程でどのような試行錯誤,判断があったかについて述べる.特にJubatusはリアルタイム,分散並列,そして深い解析という三つの目標をまず掲げ,その実現に向けて様々な試行錯誤を行った.この目標を実現する際に,どのような選択肢があり現在の構成を採用していったかについて述べる.また,Jubatusは異なる強みを持った複数の企業が共同で企画/研究/開発を行い,その成果をOSSとして公開するという新しい研究開発の形をとって開発されている.こうした連携の背景や,そ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く