並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 25 件 / 25件

新着順 人気順

深層強化学習の検索結果1 - 25 件 / 25件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

深層強化学習に関するエントリは25件あります。 機械学習強化学習人工知能 などが関連タグです。 人気エントリには 『AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃』などがあります。
  • AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃

    AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学

      AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
    • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

      東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

        強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
      • サマースクール’20:深層強化学習 | Deep Learning JP

        本講座は、Deep Learningを用いた強化学習に特化した全6回の講義です。東京大学でDeep Learning基礎講座を公開してきた松尾研究室が、深層学習の基礎を習得済みの学生を対象として開講するものです。 深層学習を用いた強化学習の研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指します。離散制御や連続値制御、モデルベース学習などの強化学習の基礎的なアルゴリズムから、sim2real、模倣学習、Control as Inference、世界モデル、まで深層強化学習の種々のトピックをカバーします。講義のみでなく、実践的な演習を通して、効率的に強化学習について手を動かしながら技術を深く理解します。

          サマースクール’20:深層強化学習 | Deep Learning JP
        • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary

          この記事について 深層強化学習を利用してAI RC Carの走行を学習させるソフトウェアをGithub上で公開しています。learnign_racerと命名しました。2020年4月29日の時点でのバージョンはv1.0.0です。この記事ではこのソフトウェアについて紹介していきます。 github.com なお、NVIDIAのJetson Community Projectsのページでも紹介されています。 developer.nvidia.com learning_racerの概要 このソフトウェアは10分から15分程度の学習時間で、コースに沿って走行する方法を獲得することができます。従来のAI RC Carでは人間のお手本操作をDNNに覚えこませる手法が一般的です1。ですが、本手法は教師なし学習の手法である強化学習をベースとしているため、教師データとなる人間のお手本操作は必要ありません。さら

            Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary
          • DeepMindが深層強化学習を利用してアルゴリズムを改善するAI「AlphaDev」を発表、すでにソートアルゴリズムやハッシュ関数の高速化に成功

            AlphaGoの開発元として有名なGoogle DeepMind社が深層強化学習を応用してさまざまなコンピューティングアルゴリズムを改善するAI「AlphaDev」を発表しました。同時に、AlphaDevを利用してソートアルゴリズムを高速化できたという論文がNatureに掲載されています。 AlphaDev discovers faster sorting algorithms https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms Faster sorting algorithms discovered using deep reinforcement learning | Nature https://doi.org/10.1038/s41586-023-06004-9 ソートアルゴリズムとは

              DeepMindが深層強化学習を利用してアルゴリズムを改善するAI「AlphaDev」を発表、すでにソートアルゴリズムやハッシュ関数の高速化に成功
            • 深層強化学習AI時代の”人間”の仕事

              深層強化学習AI時代の"人間"の仕事 2022.01.21 Updated by Ryo Shimizu on January 21, 2022, 07:18 am JST 2022年は、AIはあまりニュースの話題にのぼらないだろうと思う。 なぜならば、もはやAIを用いることは当たり前になってきているからだ。 バズワードとしてのAIは2021年で終わった感がある。 一方で、AIの仕事は、うまくいけばいくほど地下に潜る性質がある。 すなわち、競争相手にどうやっているかを探られないように巧妙に隠す必要があるからだ。 次にニュースになるものがあるとすれば、AIがコンシューマ製品に搭載された時だが、たとえば「スマホにAI」は既に入っているのでニュース性がない。「ゲーム機にAI」が入っているのは当たり前であり、「テレビにAI」ももはや新鮮味がない。 アカデミズムの世界では、少し前までは、「ディープラ

                深層強化学習AI時代の”人間”の仕事
              • 東大松尾研、深層強化学習の無料講座 受講学生を募集

                東京大学 松尾豊研究室が、深層強化学習のオンライン無料講座を2月13日にスタートする。深層学習の基礎を習得済みの学生向け。ロボット制御、ゲームAI、物理シミュレーションなどの研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指す。 大学院、大学、高専、専門学校、高校、中学などの学生向け。主に松尾研の院生が講義するが、ソニーの研究開発組織・Sony AIの河本献太氏も招く。 演習を中心に構成された講義を、Webブラウザのみで受講できる。2月13日から3月3日の全6回で、最終課題の発表会を3月末に行う。 受講者は、深層学習の基礎知識を備え,基礎的な実装が自身でできることが条件だ。 関連記事 AI入門の人気講座を日本語化 講師に松尾豊氏 「すべての人のためのAIリテラシー講座」無料公開 AIの基礎が学べる人気の動画講座の日本語版公開。「Coursera」で世界60万人以上が受講

                  東大松尾研、深層強化学習の無料講座 受講学生を募集
                • 強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai

                  サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                    強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai
                  • PFN、PyTorchユーザ向けに深層強化学習ライブラリ 「PFRL」を公開 | AI専門ニュースメディア AINOW

                    最終更新日: 2021年12月13日 株式会社Preferred Networks(PFN)は、PyTorchユーザー向けの深層強化学習ライブラリ「PFRL(ピーエフアールエル)」を、2020年7月30日にオープンソースソフトウェア(OSS)として公開しました。 PFRLは、PFNが深層学習フレームワークをChainerからPyTorchへ移行してPyTorchコミュニティと連携を強化する一環で、ChainerRLの後継ライブラリとして公開されました。 PFNは2019年12月に深層学習フレームワーク「Chainer」のメジャーアップデートを終了すると発表し、研究開発基盤をFacebook社の「PyTorch」に順次移行しました。 【PFRLの特長】 最新の研究に基づく深層強化学習アルゴリズム・深層強化学習機能が実装。それらを比較したり、組み合わせたりして実験することが可能。 特に重要な9

                      PFN、PyTorchユーザ向けに深層強化学習ライブラリ 「PFRL」を公開 | AI専門ニュースメディア AINOW
                    • ルービックキューブを一瞬で解くことに深層強化学習アルゴリズムが成功

                      by Olav Ahrens Røtne 囲碁のトップ棋士に勝利したAI「AlphaGo」は、自らの進化形として生まれた「AlphaGo Zero」に、誕生からわずか30時間で超えられてしまいました。AlphaGoとAlphaGo Zeroの違いは、AlphaGo Zeroが人間の棋譜を参考にせず、自身による強化学習で鍛錬を重ねたという点にありました。これと同じように、カリフォルニア大学アーバイン校(UCI)が生み出した深層強化学習アルゴリズム「DeepCubeA」は、人間の手助けなく、ルービックキューブをほんの一瞬で解けるようになったそうです。 UCI researchers’ deep learning algorithm solves Rubik’s Cube faster than any human | UCI News | UCI https://news.uci.edu/20

                        ルービックキューブを一瞬で解くことに深層強化学習アルゴリズムが成功
                      • 深層学習が強化学習において果たす役割とは?『現場で使える!Python深層強化学習入門』から紹介

                        本記事は『現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御』から抜粋したものです。掲載にあたり、一部を編集しています。 この記事では強化学習のアルゴリズムを理解するための前段として、機械学習の概要について説明します。さらに、機械学習において強化学習が他の学習法と本質的に異なる点を明らかにしつつ、その有用性について解説します。最後の節では、深層学習が強化学習において果たす役割について考察します。 1.1 機械学習の分類 昨今の人工知能の目覚ましい発展を支えている基礎技術は、深層学習や強化学習に代表される機械学習であると言えます。本節では、機械学習を構成する3つの手法、すなわち、教師あり学習、教師なし学習、強化学習の概要について説明します。 近年、人工知能あるいはAI(Artificial Intelligence)という言葉をよく耳にします。人工知能と聞くとSF

                          深層学習が強化学習において果たす役割とは?『現場で使える!Python深層強化学習入門』から紹介
                        • 深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita

                          追記:マリオの全ステージクリアを目指します!(2021/12/30) 深層強化学習で学習したAIマリオで全ステージクリアを目指すプロジェクトをGitHub Pagesで立ち上げました!参加者募集中です! 詳細は以下参照ください 深層強化学習のPyTorchチュートリアルが日本語訳されて…ない! PyTorch勉強中の人にとって助けになるのが公式のチュートリアルです。そんな公式チュートリアル @sugulu_Ogawa_ISID さんが日本語訳して公開してくださっています。 今、深層強化学習に興味津々丸なので、早速確認してみました。 すると… ない! PyTorchのチュートリアル、マリオをプレイするものあって、めっちゃ面白そうなんですよね。というわけで、訳される前のPyTorchの深層強化学習のマリオチュートリアルをやってみました。 ちなみに、PyTorchチュートリアル(日本語翻訳版)の

                            深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita
                          • 初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」 - Seitaro Shinagawaの雑記帳

                            こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 17日目の記事です。 今回は以前献本いただいた「深層強化学習入門」についてご紹介したいと思います。 www.kyoritsu-pub.co.jp 噂の深層強化学習本を頂いたので拝読しました!概論として基礎知識や問題設定、課題感がギュッとコンパクトにまとまってました。特に7章以降は学習させるための工夫とか実験の作法だとか重要な点がさらっと詰め込まれてて勉強になりました。分厚い本と組合せて行ったり来たり読み進めると良さそうです pic.twitter.com/3nIEoQmGkE— Seitaro Shinagawa (@sei_shinagawa) 2021年4月14日 オレンジと黒白の装丁がカッコよくて素晴らしいです。 目次 前置き 本題:「深層強化学習入門」は誰向けの本? 前置き 強化学習は様々な分野で用い

                              初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」 - Seitaro Shinagawaの雑記帳
                            • 強化学習と深層学習を組み合わせると何ができるのか?『現場で使える!Python深層強化学習入門』発売

                              Alpha Go(アルファ碁)でも利用されている深層強化学習。AIサービスのみならずロボティクス分野でもその応用が期待されています。AI開発に携わる第一線の著者陣が深層強化学習の開発手法について書き下ろした『現場で使える!Python深層強化学習入門』が8月7日に発売となりました。 『現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御』は、Alpha Goにも利用されている深層強化学習を、この分野の初学者向けに解説した入門書です。 「はじめに」より 2016年、Google DeepMindによるAlphaGoが囲碁でプロ棋士を打破したというニュースは、衝撃とともに世界中に拡がりました。その打ち手のパターン数が膨大であることから、人間には遠く及ばないだろうと考えられていた囲碁ゲームにおいても、機械学習ベースの人工知能が人間を凌駕し得ることを示した事件でした。この

                                強化学習と深層学習を組み合わせると何ができるのか?『現場で使える!Python深層強化学習入門』発売
                              • “深層学習”ではなく“深層強化学習”が決め手 将棋界最強のAlphaZeroと互角の強さ「dlshogi」の秘密

                                特徴量を入れて効率的に学習をさせる 川島馨氏(以下、川島):私が作っているdlshogiの特徴を説明します。dlshogiでは私個人が趣味でやっていて、Googleみたいな計算資源が大量にあるわけじゃないので、どうやって効率的に学習するかをいろいろ考えて、少し工夫をしています。 主な工夫点は、先ほど盤面の画像を用いるという話があったんですが、そこにもう少し将棋で有効な特徴量を入れています。駒の配置以外にも駒の利きの情報や王手の情報を入れることで、もっと効率的に学習するようにしています。 先ほど少し言ったとおり、やっぱり終盤が少し弱いので、そこをどうやって克服するかを考えて工夫しています。モンテカルロ木探索の中で、終端で“詰め”の探索をしたり、長手数の詰めの探索はdf-pnという別のアルゴリズムで行なったりしています。 強化学習をするときも“詰み”の探索をして、詰みが見つかったらそれを勝ちと

                                  “深層学習”ではなく“深層強化学習”が決め手 将棋界最強のAlphaZeroと互角の強さ「dlshogi」の秘密
                                • 深層強化学習入門 2020年度Deep Learning基礎講座「強化学習」

                                  深層強化学習入門.2020年6月実施の「Deep Learning基礎講座」強化学習の松嶋担当分の講義資料を再編集したものです.本資料は,資料を作成した松嶋が公開するものであり,他の講義回について,研究室としての公開は予定されていないとのことです.Read less

                                    深層強化学習入門 2020年度Deep Learning基礎講座「強化学習」
                                  • ゲーム攻略だけではない 深層強化学習を使ってビルの揺れを抑えるAI技術の可能性

                                    Google傘下の英DeepMindが開発したAlphaGoなどで活用される深層強化学習。しかし実用例はゲームなどが多く、フィジカルなものへの応用は限られていた。この深層強化学習を、ビルの揺れを抑える制振のアルゴリズムに応用したのがLaboro.AIだ。 いまやAIといえば、ディープラーニング(深層学習)に代表される機械学習のことを指す。猫の画像を見分けたり、文章の意図を分析したりと応用分野は幅広いが、これらは与えられたデータを元に、分類し、予測する活用法だ。 もう一つのディープラーニングの応用例が、深層強化学習と呼ばれるもの。ある問題を、コンピュータ自身に試行錯誤させ、数式では解けなかった問題の最適解を導き出す。有名な例としては、Google傘下の英DeepMindが開発したAlphaGoがある。囲碁のルールをもとに、自分自身との対決を重ねることで最適な打ち方を学び、人間が見つけることの

                                      ゲーム攻略だけではない 深層強化学習を使ってビルの揺れを抑えるAI技術の可能性
                                    • 東北大、深層強化学習だけで多関節アームの自然な運動パターンの生成に成功

                                      東北大学は6月7日、人間の計測データを使わずに、深層強化学習を用いて7自由度の多関節アームの自然なリーチング運動パターンを生成する手法を提案したことを発表した。 同成果は、東北大 大学院工学研究科 ロボティクス専攻の林部充宏教授、同・Han Jihui大学院生(研究当時)らの研究チームによるもの。詳細は、IEEEが発行する「IEEE TRANSACTIONS ON MEDICAL ROBOTICS AND BIONIC」に掲載された。 ヒトの身体の運動制御は、実は数学的には難題だ。意識することなく身体を動かしているが、いくつもの関節があり、なおかつ動かせる方向(自由度)が複数あるものも多いためで、この自由度の多さの問題は、多数の関節の冗長性問題と多数の骨格筋の冗長性問題に起因し、「多自由度空間問題」といわれる。ヒトがどのようなメカニズムで、この多自由度空間問題を解決しているのかという議論は

                                        東北大、深層強化学習だけで多関節アームの自然な運動パターンの生成に成功
                                      • DReCon - ユービーアイソフトによるゲームでの実行を想定した深層強化学習とモーションマッチングを用いた物理ベースのアニメーション制御技術!

                                        3Dモデリング ソフト ソフトウェア&ツール-Software&Tool TopoGun 3 - リトポロジーとマップベイクの為のスタンドアロンソフト!3... 2023-10-05 1684 views リトポロジーとマップベイキング専用のスタンドアロンソフトウェア『TopoGun』のバージョン3がついに正式リリースされたようです! 000 続きを読む メイキング 作品-Work We try Putting Photoreal Faces in Video ... 2023-10-05 1756 views 面白動画などでお馴染み「CorridorDigital」がPicsi社のfacemorphツールを使用し、ゲームキャラクターをリアルな顔に置き換える検証動画を公開しております。 000 続きを読む 業界-Industry Epic Gamesが従業員16%(約830人)を解雇!Ba

                                          DReCon - ユービーアイソフトによるゲームでの実行を想定した深層強化学習とモーションマッチングを用いた物理ベースのアニメーション制御技術!
                                        • 深層強化学習と汎用化が重要、ロボットへの応用が面白い Googleブレイン Shane Gu氏の基調講演「Deep Learning Digital Conference」 - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                          「Deep Learning Lab」(DLL)は、マイクロソフトとPFNの協業から生まれたコミュニティで、実社会でのディープラーニング活用を推進している。先端技術を実際のビジネスに応用するべく、技術とビジネスの両面に精通したプロたちが毎月の勉強会や教育活動をベースに、ニーズに合わせた最適な技術を選択して開発した事例や、最新技術動向の情報発信を行い、ソリューション検討を具体的に行えるようにしてきた。 DLLは2020年夏で3周年を迎えた。毎年、開催してきたカンファレンスは、COVID-19の影響で今回はオンラインセミナー形式の「Deep Learning Digital Conference」として、8月1日に行われた。「事例セッション」「技術セッション」「教育セッション」「個人セッション」に分け、ビジネス側からエンジニア側まで幅広い層を対象に、AIの社会実装に向けた30を超えるセッション

                                            深層強化学習と汎用化が重要、ロボットへの応用が面白い Googleブレイン Shane Gu氏の基調講演「Deep Learning Digital Conference」 - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                          • 深層強化学習により、核融合炉のプラズマ制御に成功 - fabcross for エンジニア

                                            イギリスのAI企業DeepMindとスイス連邦工科大学ローザンヌ校(EPFL)は、AI技術のひとつ「深層強化学習」を利用して、核融合炉内の高温プラズマの位置と形状を制御する方法を開発した。EPFLのスイスプラズマセンター(SPC)が保有する可変構成トカマク(TCV)装置を使って、その効果を実証している。研究結果は、2022年2月16日付けの『Nature』に掲載されている。 世界的なエネルギー問題を解決するために、クリーンで尽きることのないエネルギー源が求められている。その候補の1つが核融合だ。恒星の中心で起こる核融合反応を地球上で再現するため、強力な磁場を使って、非常に高温のプラズマをドーナツ型の真空容器に閉じ込めたトカマク型の実験炉が各地で開発されている。SPCのTCVは、19個の磁気コイルを使ってプラズマの構成を変えられる装置だ。 この高温プラズマは本質的に不安定で、核融合プロセスを

                                              深層強化学習により、核融合炉のプラズマ制御に成功 - fabcross for エンジニア
                                            • 【深層強化学習,入門】Deep Q Network(DQN)の解説とPythonで実装 〜図を使って説明〜

                                                【深層強化学習,入門】Deep Q Network(DQN)の解説とPythonで実装 〜図を使って説明〜
                                              • 小猫遊りょう(たかにゃし・りょう) on Twitter: "うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb"

                                                うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb

                                                  小猫遊りょう(たかにゃし・りょう) on Twitter: "うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb"
                                                • 深層強化学習でAIマリオしてみました - karaage. [からあげ]

                                                  AIマリオにチャレンジ 以下の記事の続きです。 棒を倒さないクソゲーだとつまらないので、マリオをやってみました。ディープラーニングのフレームワークとして、今回はTensorFlowでなくPyTorchを使っています。PyTorchに関しては以下記事参照ください。 AIでマリオを学習させると、結構賢くなります。 詳しくは、以下Qiita記事に書いています。 まとめ Qiitaに書いた記事の紹介です。 「深層強化学習難しくて分からないなぁ」という人、安心してください、私もさっぱり分かりません(笑)興味がある人は一緒に学んでいきましょう。 ベースとなる基礎知識に関しては、以下のような本がありますので、興味ある方は是非(宣伝です)。 関連記事

                                                    深層強化学習でAIマリオしてみました - karaage. [からあげ]
                                                  • 『用量反応試験における患者の割り付けの深層強化学習による最適化』というタイトルで統計関連学会連合大会で発表しました - StatModeling Memorandum

                                                    ありがたいことに統計関連学会連合大会の招待講演の依頼がありましたので喜んで引き受けました。たくさんの質問ありがとうございました。 発表資料を共有します。一言で言うと、臨床試験において各患者を各用量にどう割り付けるのが良いかを強化学習を用いて求める方法です。性能が良く第2相試験の効率を大きく改善すると思っています。実際の臨床試験でぜひ使ってほしいですし、そのための協力は惜しみません。 用量反応試験における患者の割り付けの深層強化学習による最適化 by @MatsuuraKentaro 元論文はこちらです(open access)。 資料の方は分かりやすさ重視のため、評価シナリオにexponentialモデルが入っていないです。論文の方は欠点を明確にするために入っています。 ソースコードは以下です。2022/9/6にPythonのgymライブラリに互換性のない変更が入りましたので、Rayライブ

                                                      『用量反応試験における患者の割り付けの深層強化学習による最適化』というタイトルで統計関連学会連合大会で発表しました - StatModeling Memorandum
                                                    1

                                                    新着記事