タグ

ml_studyに関するtakuya-aのブックマーク (26)

  • 学習データ自作のすすめ

    「深層学習で勝負するなら」で、深層学習でよい結果を出すには良質のデータを作るのが一番よいと述べました。とはいえ実際問題として、深層学習で必要とされるぐらいのデータ量を確保するにはそれなりのコストがかかるため、データ作りはなかなか手を出しにくいのも事実です。そこで記事では、自分でデータを作ることにはよい学習結果を得る以上のご利益があることを説明したいと思います。 データを作るためには、(当然ですが)どういうデータが必要なのか明確にしないといけません。ある程度の量のデータを作るためには(クラウドソーシングなどを使って)多数の作業者に作成を委託することが普通ですが、そのためにはどういうデータをどう作って欲しいのか他人もわかるように説明できないといけません。仮にそれができないとすると、そもそも深層学習を使って何をしたいのかが怪しくなってきます。データを作る第一歩として何を作るのか説明することで、

    学習データ自作のすすめ
  • 機械学習と解釈可能性

    @Tokyo.R #67 https://atnd.org/events/93829

    機械学習と解釈可能性
  • ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm

    Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください) マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな罠12選。実例がことごとく直感に反していてとても面白かった。 https://t.co/jC9JOsx1uB— Shuhei Takahashi (@nya3jp) 2017年10月11日 内容が間違っている部分があったらコメントなどで教えていただけると嬉しいです 論文 このKDD2017の論文ではABテストの結果を解釈する時に陥りがちな12種類の罠についてMicrosoftの研究者が実例と対策を交えて説明しています Pavel Dmitriev, Somit Gupta, Dong Woo Kim and Garnet Vaz, "A D

    ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm
  • Char2Vec で文字の特性について調べてみた - mixi engineer blog

    ミクシィ Vantage スタジオのAI・ロボットチームで自然言語処理関連の研究開発に関わっている原(@toohsk)です. Vantage スタジオでは人の感情に寄り添った会話ができるAIの研究開発を通じて,新しいコミュニケーションサービスを生み出そうとしています. 今回, Char2Vec を用いた,文字毎の特性について実験を行いましたので,紹介したいと思います. Word2Vec とは Word2Vec は単語をベクトル表現に変換する方法です. これまでは自然言語処理の分野では単語を扱う場合, one-hot の形式で文章内の単語を表現することが多かったです. しかし,自然言語を機械学習で扱う場合や論文では,最近では必ずといっていいほど Embedding された状態,すなわち単語をベクトルに変換してから機械学習のアルゴリズムに与えています. ではなぜ one-hot の形式ではなく

    Char2Vec で文字の特性について調べてみた - mixi engineer blog
  • Nonnegative Matrix Factorization:NMFの最適化法についてのまとめ - 楡楡

    この記事について この記事はNMFの最適化方法についてまとめたものです。 基的には、追加の制約なしのNMFの高速化手法についてになります。 筆者の研究サーベイは2015年ほどで止まっているのでそれ以降の研究はフォローしていません。 注意してください。 また、この記事は2015年10月に投降した記事の修正版になります。 何故、修正版を2年後に再度公開しているか?そういう気分になったためです。 Nonnegative Matrix Factorization 非負値行列分解(Nonnegative Matrix Factorization:NMF)は,非負の行列を低次元な非負行列の積に分解する手法 制約はすべての行列のすべての要素が非負 最適化問題は、以下になる。 (非負制約は省略)を最小化することになる。 しかし、この問題はU,Vに対して同時に凸ではないので、 1. 片方を固定してもう片方

  • 異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開 - ABEJA Tech Blog

    ABEJAでResearcherしている白川です。 今回ご紹介するのは、Poincaré Embeddings [1]という手法です。その内容に驚愕し、個人的に調べたり実装したり勉強会でお話したりしていたところ、最近運良く自分の実装をredditで取り上げてもらえたので、これを機にその驚愕の内容を共有できればと思います。 正直、自分の中ではまだ煮詰まりきっていない技術なので、現況の共有はしますが、ところどころ私の憶測や展望、期待が入り混じっていることをご容赦ください。 www.reddit.com Poincaré Embeddingsは大雑把に言えばword2vecを異空間で実現する技術で、双曲空間(Hyperbolic Space)という、おなじみのEuclide空間(2点$x,y$の間の距離を$\sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (

    異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開 - ABEJA Tech Blog
  • クックパッドの機械学習を支える基盤のつくりかた / Machine Learning ops at Cookpad

    AWS Summit Tokyo 2017 w/ https://speakerdeck.com/kanny http://www.awssummit.tokyo/summit/index.html

    クックパッドの機械学習を支える基盤のつくりかた / Machine Learning ops at Cookpad
  • 企業がユーザを守るための学術データ公開

    人工知能学会(以下JSAI)で発表された論文が、Pixivのデータを「晒した」ということで盛り上がっています。詳細は、以下のtogetterを見ていただければと思いますが、ざっくり言うとPixivで公開されていた女性向けランキングトップ10の二次創作小説(R-18)に対して「有害表現」を分類するという目的で、作者名とURLを論文に書いて炎上したということになります。 なお、以下のまとめの片方はコンテンツ提供側に、片方が学術的な立場に偏ったものになっています。今回、これに対して一つの解決策になるかもしれないと思い、自分の考えを書きます。

  • Using Deep Learning at Scale in Twitter’s Timelines

    For more than a year now since we enhanced our timeline to show the best Tweets for you first, we have worked to improve the underlying algorithms in order to surface content that is even more relevant to you. Today we are explaining how our ranking algorithm is powered by deep neural networks, leveraging the modeling capabilities and AI platform built by Cortex, one of our in-house AI teams at Tw

    Using Deep Learning at Scale in Twitter’s Timelines
  • dataset-list/free_corpus.md at master · ikegami-yukino/dataset-list · GitHub

    Dismiss Join GitHub today GitHub is home to over 28 million developers working together to host and review code, manage projects, and build software together. Sign up Text corpus This is a list of text corpora available to free of charge 1st row is description, 2nd is URL, and last is license or terms of use (if any) Japanese Annotated 京都大学テキストコーパス (京大コーパス) 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日

    dataset-list/free_corpus.md at master · ikegami-yukino/dataset-list · GitHub
    takuya-a
    takuya-a 2017/04/28
    テキストコーパス(タグ付き・タグなし)のリスト
  • Datasets

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    Datasets
    takuya-a
    takuya-a 2017/04/26
    機械学習用データセットのリスト
  • 営業がSQLを理解--データ活用を組織文化として定着させたリブセンス

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます --現在担当されている業務内容を教えてください。 現在はアクセスログ解析や機械学習を用いた業務改善を担う全社横断の分析グループのリーダーをしています。時間の使い方としては、メンバー3人の進捗管理や分析アドバイス、他部門担当者との折衝などが7割程度で、残りの3割が実際に手を動かす分析業務です。 --データをどのように活用していますか。 主にユーザーの閲覧ログや行動ログのデータを対象に統計解析や機械学習の手法を適用してサービスを改善しています。 例えば最近の事例では、正社員求人情報サービス「ジョブセンスリンク」のアプリ会員登録の導線改善があります。これまではユーザーの総数が少ないこともあり、コンバージョン数の少ない箇所でのA/Bテストでは、

    営業がSQLを理解--データ活用を組織文化として定着させたリブセンス
    takuya-a
    takuya-a 2017/04/13
    リブセンスの機械学習事例
  • SentencePiece を試してみた - Qiita

    SentencePiece とは 日語のようなスペースで単語が区切られていない言語にも対応したトークナイザー。 文章を単語のようなトークンに分割してくれる。 動かしてみた 追記:作者の taku910 さんからのコメントにもありますが、この実験で設定した語彙数256000は大きすぎるそうです。コメント部分に適切な語彙数での実験結果もありますので合わせて御覧ください。 過去に集めた1000万ほどの Twitter のつぶやきで学習。(ただし、当初集めた目的の関係で短い文章ばかりです。) vocab_size: 256000 model_type: unigram echo "私たちの考えや感情は心の中にあって、それは心の中の言葉を使って表されることも多いけれども、来言葉・音・視覚その他の 五感のどれでも無い、なにかもやもやとしたかたまりだとおもう。言葉はその表現でしかない。 " | sp

    SentencePiece を試してみた - Qiita
    takuya-a
    takuya-a 2017/03/09
    はやい
  • ニューラルネットワークの量子化についての最近の研究の進展と、その重要性 - SmartNews Engineering Blog

    こんにちは、スマートニュースの徳永です。深層学習業界はGANだとか深層強化学習だとかで盛り上がっていますが、今日は淡々と、ニューラルネットワークの量子化の話をします。 TL;DR パラメータだけを量子化するのであれば、ほぼ精度を落とさずに、パラメータのデータ容量は1/16程度にまで削減できる パラメータ、アクティベーション、勾配のすべてを量子化し、推論だけでなく学習までもビット演算だけで実現する研究が進んできている 現在は深層学習 = GPU必須というぐらいの勢いがあるけど、量子化の研究が進むと、今後はどうなるかわからないよ はじめに 情報理論における量子化とは、アナログな量を離散的な値で近似的に表現することを指しますが、稿における量子化は厳密に言うとちょっと意味が違い、十分な(=32bitもしくは16bit)精度で表現されていた量を、ずっと少ないビット数で表現することを言います。 ニュ

    ニューラルネットワークの量子化についての最近の研究の進展と、その重要性 - SmartNews Engineering Blog
  • 優良AIスタートアップの見分け方 - 随所に主と作れば、立処皆真なり

    ある方にAIスタートアップの評価方法について聞かれ、いろいろ考えてたら面白くなってきたのでここにまとめて記しておく。手短に言えば、秘密主義は良いサインとはいえないし、AIで何でも出来るはウソだし、応用と顧客に寄り添う堅実さがが第一ということだ。まったくの個人的な意見であり、基的に余計なお世話だとは思うが、笑い飛ばしてもらえれば幸いである。 なおここでのAIスタートアップの意味は、分野や規模は問わず、人工知能AIという言葉を前面に出している新興テック企業とする。 「秘密の独自AI技術(特許出願中)」を第一にアピールして"いない" ビジネス自体に新規性がない場合、テック企業としては技術力をアピールしなければならないが、言葉にすると「世界最高レベルの自社技術」など情報量のない表現の羅列になりがちだ。 サンフランシスコ界隈で数多くのAIスタートアップを取材している記者の話では、技術のコアについ

    優良AIスタートアップの見分け方 - 随所に主と作れば、立処皆真なり
  • 第28回IBISML研究会 | 情報論的学習理論と機械学習 (IBISML) 研究会

  • 悪口とは何か? 機械学習用に荒らしコメント1万3500件を収集

    Collection of 13,500 Nastygrams Could Advance War on Trolls 悪口とは何か? 機械学習用に荒らしコメント1万3500件を収集 人間同士の罵倒を避けるため、1万3500件のWikipediaのノートページのデータが、機械学習用の訓練データになった。英語なので、日版を作れば、ののしり合いを機械が仲裁してくれるかもしれない。 by Tom Simonite2017.02.08 163 22 5 0 女性蔑視や人種差別、罵倒など、ネット上で個人を攻撃している投稿1万3500件以上のコレクションが完成した。 ウィキペディアのノートページから収集された悪口を、アルファベット(グーグルの親会社)とウィキメディア財団(ウィキペディアを運営する非営利団体)の研究者が10万件以上の温和な投稿とともにデータ集として公開したのだ。研究者によると、このデー

    悪口とは何か? 機械学習用に荒らしコメント1万3500件を収集
  • 文字認識はCNNで終わるのか?

    電子情報通信学会「パターン認識・メディア理解研究会」(2016年2月14日@九州工業大学,福岡県飯塚市)でのプレゼン資料です. 対応する原稿は以下です. 電子情報通信学会技術研究報告, PRMU2015-133 http://www.ieice.org/ken/paper/20160221UbGo/ 以下はアブストラクトです.=========================== 印刷数字,手書き数字,多フォント数字を対象として,畳み込みニューラルネッ トワーク(CNN) による認識実験を試みた.いずれのタスクにも大規模な データセットを用いた.得られた認識率は,印刷数字について99.99%,手書き数字について99.89%,そして多フォント数字について96.4%であった. さらに印刷数字と手書き数字の混合認識という,予想される困難性からか従来あまり試みられなかった課題についても,CNNの利

    文字認識はCNNで終わるのか?
  • リブセンス、転職求人サイト「ジョブセンスリンク」公式アプリのiOS版を提供開始

    アプリは簡単に希望の求人探しや応募ができるよう、シンプルなデザインと操作性を重視。PCサイトからの情報連携も可能で、アプリ上で転職コンシェルジュが希望条件の入力から求人応募までアドバイスする。求人掲載企業は約6000社。 機械学習を活用した高性能なレコメンド機能を搭載し、求人の好みを答えていくと利用者に最適な求人情報をすすめるようになる。4つの質問に答えるだけで、自己PR文章が完成する機能も用意。自動生成された文章は後から修正もできる。 ダウンロードは無料で、対応OSはiOS 9.0以上。Android版は2015年10月に配信を開始している。 関連記事 スタッフサービス、ユーザーの志向に合わせた求人レコメンドアプリ「Alicamo」リリース スタッフサービス・ホールディングスは、プロフィールに沿った最適な求人特集を提案するアプリ「Alicamo」をリリースした。 リクルート、1日だけ働

    リブセンス、転職求人サイト「ジョブセンスリンク」公式アプリのiOS版を提供開始
  • 【17-B-4】 DeNAの機械学習基盤と分析基盤 | Developers Summit 2017

    【17-B-4】 DeNAの機械学習基盤と分析基盤 DeNAでは次世代の事業の柱とすべく、AI技術、特にディープラーニングに力を入れています。1ヶ月の間に5つのプロジェクトが立ち上がることもあり、素早く機械学習基盤を構築、運用する必要があります。また、ディープラーニングでは学習を早く終わらせるために潤沢なGPUが必要となります。DeNAではこれらの課題を解決するためにAWSおよびGCPのクラウドを積極的に活用しています。クラウドの活用方法、比較、機械学習を支援するために構築しているGPUサーバのオンデマンドオートスケールの仕組みについて話します。後半では、DeNAの分析基盤について話します。DeNA では Hadoop (HDFS) をデータレイクとし、Verticaを主軸のクエリ実行環境とした分析基盤を構築していましたが、最近では BigQuery の活用も進めています。HDFSおよびV