タグ

関連タグで絞り込む (183)

タグの絞り込みを解除

機械学習に関するpetite_blueのブックマーク (547)

  • 人工知能の欠点、破局的忘却とは? – 株式会社ライトコード

    一度覚えたことを忘れる?破局的忘却とは?現在、「人工知能AI)」技術は至る所で耳にするようになりました。 例えば工場で、生産したものに傷がないか検品するにも、画像認識の人工知能が使われています。 その精度は凄まじく、人間より素早く、かつ正確に行うことができます。 しかし、そんな万能とも思えるような「人工知能」にもいくつか欠点があります。 破局的忘却(破滅的忘却)それは、破局的忘却(または、破滅的忘却)と呼ばれる欠点です。 なにやらカッコイイ響きの言葉です。 ですが、その内容は「一度何かを学習したネットワークに新しいものを覚えさせようとすると、以前学習したものを忘れてしまう」というもの(笑) 例えば、「りんご」と「みかん」を識別できるネットワークがあったとします。 そのネットワークに新しく「ぶどう」も識別させようと学習すると、「りんご」と「みかん」はもう忘れているのです! 【図、破局的忘却

    人工知能の欠点、破局的忘却とは? – 株式会社ライトコード
  • ディープラーニングも使える確率的プログラミングツール「Gen」を開発、MIT

    ディープラーニングも使える確率的プログラミングツール「Gen」を開発、MITAIモデルやアルゴリズム作成の民主化に貢献 マサチューセッツ工科大学(MIT)の研究チームが開発した確率的プログラミングツール「Gen」を使えば、初心者でも簡単にAIに触れることができ、専門家は高度なAIプログラミングが可能になる。ディープラーニングよりも適用範囲の広いことが特徴だ。 【訂正:2019年7月4日10時50分 記事タイトルの一部に誤解を招く表現があり訂正しました。 訂正前:ディープラーニングを超える汎用AIツール→訂正後:ディープラーニングも使える確率的プログラミングツール】 マサチューセッツ工科大学(MIT)の研究チームは、2019年6月下旬に米アリゾナ州フェニックス市で開催されたカンファレンス「Programming Language Design and Implementation」で、新し

    ディープラーニングも使える確率的プログラミングツール「Gen」を開発、MIT
  • 要注目?DeepGBM: ニューラルネット+GBDT(速報) - Paoの技術力を磨くブログ

    KDD2019のPaper一覧で気になるものがあったので紹介します。 ※記載時点でまだ論文公開、発表されておらず、こちら鮮度重視の記事です。 内容に誤りがある可能性は十分あるのでご了承ください。 DeepGBMとは データマイニングのトップカンファレンスKDD2019で発表される予定の手法です。 Guolin Ke, Zhenhui Xu, Jia Zhang, Jiang Bian, and Tie-yan Liu. "DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks." In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, ACM

    要注目?DeepGBM: ニューラルネット+GBDT(速報) - Paoの技術力を磨くブログ
  • Google Brainの論文「学習率を落とすな、バッチサイズを増やせ」を読む - Qiita

    ざっくりいうと 学習率$B$とバッチサイズ$\epsilon$、モメンタムの係数$m$の間には関係があり、以下の2つの法則が成り立つ。 バッチサイズ$B$と学習率$\epsilon$は比例する($B\propto\epsilon$) バッチサイズ$B$とモメンタム係数$m$を1から引いた値は反比例する$B\propto \frac{1}{1-m}$ この式を元に異なるバッチサイズに対して効果的な学習率を決めたり、学習率を落とすのではなくバッチサイズを増やして学習の高速化ができるよというのが論文の主張。 元ネタ Samuel L. Smith, Pieter-Jan Kindermans, Chris Ying, Quoc V. Le. Don't Decay the Learning Rate, Increase the Batch Size. 2017. ICLR 2018 https:

    Google Brainの論文「学習率を落とすな、バッチサイズを増やせ」を読む - Qiita
  • Kaggle Masterが勾配ブースティングを解説する - Qiita

    この記事は、Kaggle MasterであるBen GormanさんによるGradient Boosting Explainedを和訳したものです。日語でGradient Boostingの原理を解説した記事があまりなかったのですが、この記事が非常にわかりやすかったので、ご人に和訳の許可をお願いしたところ、快諾していただきました。Benさん、ありがとうございます。この記事が日人Kagglerの助けになれば幸いです。 まえがき 線形回帰がトヨタのカムリだとしたら、勾配ブースティングはUH-60ブラックホークヘリコプターでしょう。勾配ブースティングの実装の一つであるXGBoostはKaggleの機械学習コンペで長らく使われ、勝利に貢献し続けています。 しかし残念なことに、(以前の僕を含め)多くの人がこれをブラックボックスとして使ってしまっています。多くの実利的な記事でも説明が省かれていま

    Kaggle Masterが勾配ブースティングを解説する - Qiita
  • 最新機械学習モデル HistGradientBoostingTreeの性能調査(LightGBMと比較検証) - Qiita

    Abstract white, inc の ソフトウェアエンジニア r2en です。 自社では新規事業を中心としたコンサルタント業務を行なっており、 普段エンジニアは、新規事業を開発する無料のクラウド型ツール を開発したり、 新規事業のコンサルティングからPoC開発まで携わります 今回は、機械学習技術調査を行なったので記事で共有させていただきます 以下から文章が長くなりますので、口語で記述させていただきます ヒストグラムベースのGradientBoostingTreeが追加されたので、系譜のLightGBMと比較した使用感を検証する。 今回はハイパーパラメータ探索のOptunaを使い、パラメータ探索時点から速度や精度を比較検証する。 最後にKaggleにSubmissionして、汎用性を確認する。 Introduction scikit-learn v0.21 で追加された HistGr

    最新機械学習モデル HistGradientBoostingTreeの性能調査(LightGBMと比較検証) - Qiita
  • 効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog

    どうも緒方@conta_です。 みなさんAI頑張ってますか? きっと昼はGPUサーバーを回して、夜は結果待ちでビールサーバーを回してる人が多いことでしょう。 機械学習を実際のプロダクトに活用する場合、自分が解きたいタスクがそのままオープンなデータセットで解決できることは少ないので、まず最初に課題となるのはデータセット作成です。 実際にカメラやセンサーを取り付けて収集したり、Webからクローリングしてきたり、事業会社であれば自社のデータセットに教師ラベルをつけることで新しいタスクに取り組むことが可能になるでしょう。 よく疑問になるポイントとして、データセットの量と質は、多ければ多いほど良く、高品質であれば高品質であるほど良いのですが教師データを作成するのは一苦労です。 *下記アノテーションの量や質について実験した結果がまとまってます tech-blog.abeja.asia もちろん少数デー

    効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog
  • 対決!RTX 2080Ti SLI vs Google Colab TPU ~Keras編~ - Qiita

    RTX 2080Tiを2枚買ったので、どれぐらいの性能が出るかColabのTPUと対決させてみました。さすがにRTX 2080Tiを2枚ならTPU相手に勝てると思っていましたが、意外な結果になりました。 スペック GPUGPU : RTX 2080Ti 11GB Manli製×2 SLI構成 CPU : Core i9-9900K メモリ : DDR4-2666 64GB CUDA : 10.0 cuDNN : 7.5.1 TensorFlow : 1.13.1 GPUだけで30万円以上はします。2019年5月現在、ディープラーニングの環境構成としては相当強い部類です。GPUは1個250Wなので、GPU2枚をフルに動かしただけで500W近い電力消費が加算されます。 GPUの場合は、「ELSA GPU Monitor」を使って、GPUのロードや消費電力をモニタリングします(5秒ごとCSV

    対決!RTX 2080Ti SLI vs Google Colab TPU ~Keras編~ - Qiita
  • p進機械学習の紹介 - Qiita

    機械学習ではデータを$\mathbb{R}^n$の元として扱い,分類や回帰といったタスクを$\mathbb{R}^n$から$\mathbb{R}^m$への写像として構成します. ところが近年Poincare Embedding等$\mathbb{R}^n$以外の世界で考えることによる効果がいくつか得られています. 今回調べた$p$-adicな構造もそうした実数ではありえない構造の一つです. これは大学数学の知識を少し仮定して、$p$-adicな機械学習の現状を調べたものです. 調べた範囲だと2010年以降の論文はほとんどなかったので,改めてまとめておくだけでも価値があるかと思います. 数学の知識としては以下を仮定します. 位相空間論,特にコンパクト性や完備性 初等的な環論.例えば整域に対する商体の操作や環の乗法群の定義 とはいえ,なるべく丁寧に解説するので,定理の主張が読めれば特に問題ない

    p進機械学習の紹介 - Qiita
  • 最近の深層学習におけるAttention機構  - CVとNLPを中心に -

    2019.4.14 関東CV勉強会で発表した資料です. Attention機構について発表しています.

    最近の深層学習におけるAttention機構  - CVとNLPを中心に -
  • Disk Embedding による非循環有向グラフの表現獲得 - LAPRAS AI LAB

    LAPRAS のアルゴリズムエぬジニア 兼 リサーチャーの鈴木です。AI Lab への投稿は初めてですので、簡単に自己紹介をしておきます。私は大学で理論物理学の修士号を取った後、大手電機メーカーの研究所で機械学習・信号処理などを研究していましたが、「世の中のミスマッチをなくす」というビジョンに共感し、昨年の11月からLAPRAS (旧 scouty) にジョインしました。これまでの主な研究成果は [Suzuki, 2014], [Suzuki, 2017] などです。よろしくお願いします。LAPRAS のリサーチチームでは、LAPRASの「世の中のミスマッチをなくす」というビジョンを達成するため、「個人に最適な選択肢を与えるための基盤技術」となりうる分野について調査・研究を進めています。現在は特に、自然言語処理、知識グラフ、埋め込みの分野から新しいブレークスルーが生まれるのではないかと信じ

    Disk Embedding による非循環有向グラフの表現獲得 - LAPRAS AI LAB
  • Googleが大量の機械学習用データベースを無料公開してた - Qiita

    個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )

    Googleが大量の機械学習用データベースを無料公開してた - Qiita
  • 【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita

    記事は、Lionbridge AI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。 記事は、日語のデータセットを紹介いたします。日語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日語のテキストデータセットを含みます。 機械学習に使える日語のデータセットポータル DATA GO JP: 日政府のデータカタログサイト。日政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイ

    【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita
  • 無料で拾える機械学習系の本のPDFまとめ - とある京大生の作業ログと日々の雑記

    最近はツイッターでいろんな人に普段どんな感じで勉強してるのかということを聞かれるのですが、ぼくはだいたいネットでPDFを拾ってきて読んでます。 そこでぼくが今まで読んだ中で良さげな機械学習系ののリンクをまとめておこうと思います。 ちなみに全て英語ですので日語じゃないとやだ〜〜〜って泣いちゃう方はタブを閉じるか日語訳を書店で探してきてください。 PRML (Pattern Recognition and Machine Learning) Pattern Recognition and Machine Learnng www.microsoft.com まず1冊目はみんな大好きPRML。 機械学習というよりかはベイズのと言っていいようなお気持ちもあるのですが、基礎力として非常にいいだと思います。 特にグラフィカルモデルの章はめちゃくちゃ読み応えあるので個人的には大好きな一冊。

    無料で拾える機械学習系の本のPDFまとめ - とある京大生の作業ログと日々の雑記
  • 物体検出についての歴史まとめ(1) - Qiita

    ここでは、物体の検出についてFaster R-CNNYOLOSSDのようなさまざまなアルゴリズムについて説明します。 物体検出の最先端、各手法の直感、アプローチ、それぞれの特徴を見ていきます。 この続きは以下で記述しています。 物体検出についての歴史まとめ(2) https://qiita.com/mshinoda88/items/c7e0967923e3ed47fee5 1. 物体検出とは 1-1. 物体検出概要 物体検出は画像を取り込み、画像の中から定められた物体の位置とカテゴリー(クラス)を検出することを指します。 犬分類器を作成したとき、や犬の画像を撮り、そのクラスを予測しました。 図1−1 と犬の両方が画像に存在する場合、どう処理すべきでしょうか。 図1-2 この場合、モデルは何を予測するのでしょうか? この問題を解決するために、両方のクラス(犬と)を予測する複数ラベ

    物体検出についての歴史まとめ(1) - Qiita
  • サーベイ論文:画像からの歩行者属性認識

    [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP

    サーベイ論文:画像からの歩行者属性認識
  • モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFace - Qiita

    モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFaceDeepLearningMetricLearningFaceRecognition はじめに 顔認識 (face recognition) 等の個体識別問題において、距離学習は非常に重要です。ここで個体識別問題というのは、顔認識を例に取ると下記のようなものです。 2つの顔画像ペアが与えられた際にその顔画像ペアが同一人物のものであるかを判定する1:1認証 N人の顔画像データが予め与えられた状態で、個人が特定されていない顔画像が入力された際に、その顔画像がN人のうちどれであるか、またはどれでもないかを判定する1:N認証 何故距離学習が重要かというと、クラス分類問題とは異なりクラス数が不定で各クラスに属する画像を事前に得ることができず1、クラス分類問題として解くこと

    モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFace - Qiita
  • 深い森(multi-Grained Cascade Forest)と浅い森(Random Forests)を動かして比較してみた - Qiita

    深い森(multi-Grained Cascade Forest)と浅い森(Random Forests)を動かして比較してみたPython機械学習MachineLearningrandomForestgcForest はじめに gcForestを動かしてみる。 背景 近年、機械学習のモデルは主にニューラルネットワークを用いる深層学習に注目が集まっている。しかし、一般的に深層学習を十分に利用するには、膨大な計算資源や、ネットワークの構造とパラメーターのチューニング、学習用の大規模データが必要というネガティブなポイントがある。これらの問題点を解決するために、深層学習の代替案として決定木とアンサンブル学習を利用して深く学習するgcForest(multi-Grained Cascade Forest)が提案されている。 内容 ページでは次のような決定木ベースの機械学習モデルを構築します。 R

    深い森(multi-Grained Cascade Forest)と浅い森(Random Forests)を動かして比較してみた - Qiita
  • 特徴量選択の今とこれから - 学習する天然ニューラルネット

    特徴量選択とは 特徴量選択の難しさ 特徴量選択の手法の大別 教師ありの特徴量選択 filter method 単変量とクラスラベルの関連性を上げる 関係性を上げて冗長性を下げる 関係性を上げて多様性を上げる wrapper method Forward SelectionとBackward Elimination 遺伝的アルゴリズムと粒子群最適化 その他のwrapper method embedding method L1正則化 Regularized tree 特徴量選択のこれから 超高次元データと特徴量選択のアンサンブル 不均衡データにおける特徴量 オンライン特徴量選択 深層学習を用いた特徴量選択 最後に 特徴量選択とは 特徴量選択(Feature Selection, 変数選択とも)はデータサイエンスにおいて非常に重要である。 例えば、製造業において欠陥品を判別するタスクを考えてみよ

    特徴量選択の今とこれから - 学習する天然ニューラルネット
  • 不均衡データへの決定打となるか!?「Affinity loss」の論文を読む、実装する - Qiita

    陰性のデータは1万件近く集めることができましたが、陽性のデータは100件しか集められませんでした。このように、陽性・陰性というクラス間でデータ数に明らかな偏りがあるケースを不均衡データ(inbalanced data)といいます。 不均衡データの問題点 評価上の問題 これは教科書的な問題で、「精度(Accuracy)が機能しない」という点です。例えば先程の例で陰性がデータ全体の99%なら、ありとあらゆるデータに対して陰性と判定($y=0$)する分類器を作れば、その時点で精度99%を達成してしまいます。 こんなイメージです。機械学習なんていらないですね。笑っちゃうかもしれませんが、実は機械学習を使っても「return 0」みたいな状態に最適化が向かうことがあります(後述)。 今最適化での解の問題はおいておくとして、あくまで評価上の問題なら、Precision, Recall, ROC曲線、F

    不均衡データへの決定打となるか!?「Affinity loss」の論文を読む、実装する - Qiita