Applied machine learning at facebook a datacenter infrastructure perspective HPCA18
こんにちは、はてなのアプリケーションエンジニアの id:yanbe です。 先日、アドテク × 機械学習 -オレシカナイト Vol.5というイベントに参加してきました。 オレシカナイトとは? サイバーエージェントが運営するメディアの広告部門である 「Publisher adTechnology Assosiation」のエンジニアが、 新規技術に挑戦するにあたって学んだことや、プロダクトを開発・運用する過程 で学んだことを皆様に共有する勉強会です。 オレシカナイトについて 発表者は、サイバーエージェント社やその関連会社のアドテク関連部署の方々が中心ですが、最近はサイバーエージェントグループ内にとどまらず、アドテク業界のエンジニアの方が発表者として招かれることもあるようです。 発表が終わった後は、同じ会場で立食形式の懇親会がおこなわれ、さまざま会社でアドテクや関連分野の仕事に関わっている参加
https://pydatatokyo.connpass.com/event/77008/
LINE福岡で行なわれたHacker Tackleにて登壇してきました。 発表内容は(1)機械学習を使ったサービス開発の難しい点について整理し(2)その難しさを乗り越えていくためにはてながどのような取り組みを行なっているかについてでした。一口に機械学習を使ったサービス開発といっても、古典的な問題設定でどうやればいいか比較的クリアに見えているものと、R&D要素が強くどう取り組んでよいか分からないものではよい取り組み方も異なってきます。そこで、今回の発表では古典的な問題設定(テキスト分類)であるBrandSafe はてなのリニューアル、R&D要素の強いMackerelの異常検知、それぞれに対し技術的/組織的にどのような取り組みを行なったかについて話させてもらいました。 はてなにおける機械学習の取り組み from syou6162 登壇時間は30分で割と話すことも多かったので、当初話す予定だった
2016年、Google DeepMind社から恐ろしい論文が出された、AlphaGoその名を冠した囲碁プログラムが既存の囲碁ソフトに勝率99%を叩き出したのだ。AlphaGoは強化学習とDeep Learningを組み合わせた囲碁プログラムで、その年に最強の囲碁棋士の一人である李世ドルさんに4勝1負で勝利した。その後も進歩を続けて今のAlphaGoの強さは人類が体感できるレベルを超えるほど強くなったと予想される。 2017年も終わりのころ、Google DeepMind社からまた途方もない論文が発表された。囲碁とほぼ同じ手法で最強レベルのチェスや将棋プログラムを超えたということだった。実際のところ正確に超えたのかどうかちょっとだけ疑問もあるのだが、まず前提として彼らの新手法が途方もない成果をあげたこと素直に祝福したい。彼らは自分たちのプログラムをAlpha Zeroと名付けた。 コンピュ
ここ数年のDeep Learningの発展は目覚ましく、急速に実用化が進んでいます。タスクによっては人間に匹敵する精度に達しているものもあり、システムの一部品としてデプロイする場面も増えてくると思います。そこで問題になるのが計算機資源の制約です。学習時には大量の学習データを用意し、GPUなどの計算資源で数時間や数日かかるような学習をしますが、推論時には限られたメモリや計算資源のもとで動作させる必要があります。リアルタイムに大量の入力データを捌く必要があったり、スマートフォンやエッジデバイスなどで動作させる場合には、この制約はさらに強くなります。 深くて大きいモデルの方が精度が出るが、実用を考えると軽量なモデルにする必要がある。こういった場面で最近よく使われる手法として、 知識の蒸留 (Knowledge Distillation) と呼ばれる方法があります。これは、(典型的には)大きくて複
データプラットフォームチームの野本です。機械学習基盤の構築やその周辺アプリケーションの実装を行っています。以前は DOOR 賃貸の開発運用をしていてこんなことなどしてました。 機械学習システム運用の課題 リブセンスでは 2014 年ごろから機械学習システムの開発導入を行っており以降様々な機械学習システムを各サービスに導入してきました。また自社でのデータ分析基盤の運用も行うようになってから機械学習システムの開発の幅が広がり導入の要望も次第に増えてきました。(参考:リブセンスのデータ専門組織のこれまでとこれから) 当初は機械学習システムに対する運用知見などが少なかったため、専用のインフラというものは保持せず各サービスのインフラに相乗りし、サービスのアプリケーションと密に連携し機械学習システムを実装運用することが多かったです。各サービスは元々オンプレミスで運用されていたものが多かったのですが、現
こんにちは、アプリケーションエンジニアのid:syou6162です。2018年になってしまいましたが、2017年のはてなにおける機械学習の取り組みについて振り返ってみたいと思います。 機械学習サブ会とは リソース/ツール整備 定例会 プロジェクトの近況を共有、より専門的な困り事を相談 技術共有/雑談 論文読み会/専門書の輪講会 社内で機械学習ハッカソンの開催 おわりに 機械学習サブ会とは はてなではより専門的な内容に関するエンジニアの小集団として、サブ会という制度が昨年から開始されています。昨年までは個人的に機械学習勉強会をランチタイムに運営していましたが、社内で正式にサブ会として認定されたことにより、業務時間内に活動しやすくなりました。このエントリではサブ会発足からの約八ヶ月の活動を振り返りってみたいと思います。 簡単に背景について説明しておきます。はてなは現在のところ、研究開発専門の部
こんにちは、アプリケーションエンジニアの id:alpicola です。先日社内で機械学習を題材としたハッカソンを開催しました。サービスに蓄積されたデータを使って、何か面白いことができないか気軽に試してみる場を設けるのが開催の趣旨です。このハッカソンの成果をいくつか紹介します。 この記事ははてなエンジニアAdvent Calendar 2017の24日目の記事です。昨日は id:wtatsuru さんによる「エンジニア新人研修で障害対応を行いました 」でした。明日は id:motemen さんです。 id:Windymelt 「おすすめブログのレコメンド」 はてなブログにはブログの購読機能があるのですが、ユーザーの購読情報を元にブログのレコメンドを行なっていて、いい度合いに動いてそうでした。協調フィルタリングという手法を使っていて、どんなブログを購読しているかによってユーザーの類似度を計算
Analytics チームで転職会議のレコメンドを開発している @na_o_ys です。今回は業務のことは忘れて、趣味の将棋の話をしたいと思います。 この数年で将棋の学習環境はずいぶんリッチになりました。通勤電車では将棋アプリのネット対局をして、自宅ではオープンソースの強豪 AI を使って棋譜検討し、日々将棋を楽しんでいます。 一方で、顔を突き合わせて盤と駒を使って指す対局が一番楽しいのは変わりがありません。 リアルの対局を AI で検討するために、盤面を手軽にコンピュータに入力したい というのが今回のテーマの発端です。 TL;DR 盤上の駒を高い精度で推定することができました。 処理は大きく 2 つのステップからなります。 盤面の正規化 盤面の四隅の座標を特定し、元画像から正規化画像への射影変換を得る マス目毎の内容を推定する マス目毎に画像を切り出し、駒の有無・種類を推定する ちなみに
本記事では、機械学習コンペなどでよく見られる勾配ブースティング決定木(gradient boosting decision tree)を説明します。勾配ブースティング決定木は、MNISTデータに対して、ニューラルネットの最高精度と同等の精度を出したり、また高速な実装xgboostなどで有名な手法です。ライブラリを使用している方も多いと思いますが、意外とどのような構造になっているかを知らない人もいるかもしれません。 そこで、本記事では、決定木とは何か、というところから始めて、アンサンブル学習、勾配ブースティング決定木について見ていきます。 決定木 情報利得 アンサンブル学習 バギング ブースティング 勾配ブースティング決定木 各反復での訓練 モデルの複雑性 最適解の導出 実装例 まとめ 参考 決定木 決定木(decision tree)は、データに対して一連の質問を与えることによって、目標に
こんにちは、Analyticsグループの田中です。 以前は主にデータ分析基盤を開発・運用していましたが、現在は機械学習基盤の開発に携わっています。 今回はレコメンドエンジンを題材に、コンテナ技術を活用した機械学習システムのアーキテクチャをご紹介します。 リブセンスでのレコメンドエンジン開発 リブセンスでは以前から機械学習を利用したレコメンドエンジン開発に力を入れています。 このブログの初回の記事でも社内で利用しているBPMFアルゴリズムについて解説しています。 この記事にもあるのですが、社内のレコメンドをとりまく状況は次のような点が特徴です。 複数のサービスでそれぞれのニーズに合わせたレコメンドエンジンを開発・運用している マッハバイト・転職ナビ・転職会議などの各メディアでそれぞれ独自のレコメンドエンジンが稼働している 主な事業領域である求人・不動産サービスでは、アイテムの件数は多くないが
こんにちは、リブセンスで機械学習関係の仕事をしている北原です。 弊社の転職ナビアプリには求人をレコメンドする機能が実装されていて、求人の好みを回答すると各ユーザーに合った求人がレコメンドされるようになっています。このサービスではいくつかのレコメンドアルゴリズムが使われているのですが、その中にBPMF(Bayesian Probabilistic Matrix Factorization)というアルゴリズムがあります。基本的な問題をフルベイズで扱っている典型的なベイズ手法なのですが、使いどころが難しいのか、使われているのをあまり見たことがありません。そこで、今回はこのBPMFを紹介しようと思います。 アプリの求人レコメンド レコメンドに限らず機械学習では、やりたいことや使えるデータの種類、特徴に応じて適切なアルゴリズムを使うことが大事です。BPMFを使った背景として、まず簡単に求人レコメンド
この記事は Gunosy Advent Calendar 2017 の1日目の記事です(フライング) qiita.com §1. はじめに こんにちは。データ分析部ロジックチームの @mathetakeです。いつもはデータ分析ブログにいるのでテックブログは初めてです。怖いです。Twitterとかやったことないですね。 最近は仕事でニュースパスというプロダクトの記事配信ロジックの改善を行っており、その一環としてパーソナライズロジックの開発プロジェクトに従事しています。 パーソナライズとはユーザーひとりひとりに対して別々の記事配信を行う事です。下記の記事でパーソナライズプロジェクト発足に至るまでの背景が語られているので、興味のある方はぜひご覧ください。 gunosiru.gunosy.co.jp この記事ではニュースパスの記事配信アルゴリズムのパーソナライズプロジェクトに関連して、 パーソナラ
私が2012年にニューラルネットの逆襲(当時のコメント)というのをブログに書いてからちょうど5年が経ちました。当時はまだDeep Learningという言葉が広まっておらず、AIという言葉を使うのが憚られるような時代でした。私達が、Preferred Networks(PFN)を立ち上げIoT、AIにフォーカスするのはそれから1年半後のことです。 この5年を振り返る良いタイミングだと思うので考えてみたいと思います。 1. Deep Learning Tsunami 多くの分野がこの5年間でDeep Learningの大きな影響を受け、分野特化の手法がDeep Learningベースの手法に置き換わることになりました。NLP(自然言語処理)の重鎮であるChris Manning教授もNLPで起きた現象を「Deep Learning Tsunami」[link] とよびその衝撃の大きさを表して
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く