並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 544件

新着順 人気順

強化学習の検索結果241 - 280 件 / 544件

  • 実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている

    AI開発企業のDeepMindが開発し、人間のトップ棋士を打ち負かしたことで話題を呼んだ囲碁AIの「AlphaGo」や、あらゆるボードゲームを学習できる進化版AIの「AlphaZero」のコアとなる部分が、実はひっそりとGitHubでオープンソース化されていると指摘されています。 Do you know that DeepMind has actually open-sourced the heart of AlphaGo & AlphaZero? It’s hidden in an unassuming repo called “mctx”: https://t.co/GpNtwH9BxA It provides JAX-native Monte Carlo Tree Search (MCTS) that runs on batches of inputs, in parallel, a

      実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている
    • 「深層学習」(ディープラーニング)とは何か!(中)|NetIB-News

      (株)Preferred Networks リサーチャー 松元 叡一 データが増えても正しく動くようなアルゴリズム ――「機械学習」だけでも充分すごいですね。そのなかでも「深層学習」は、50年来のブレイクスルーと言われています。何が大きく違うのですか。 松元 時代とともに、「機械学習」で学習したいデータのサイズと複雑さがどんどん増えてきました。実際には、世の中の社会現象、経済現象を考えてみても、直線でルール化できる単純なものは少ないです。先ほどの健康診断の例でも、年齢、住んでいる地域、年収、好みの食べ物等、データの項目が増えるほど、データの次元(1サンプルあたりの情報量)が高まってきます。 画像を例にとると、100×100ピクセルのグレー画像なら、1データあたりの画素数10,000の次元になります。このような膨大な次元になりますと、もちろん直線では分けられませんし、曲線でも非常に複雑なもの

      • OpenAI Gym 入門 - Qiita

        概要 強化学習のシミュレーション環境「OpenAI Gym」について、簡単に使い方を記載しました。 類似記事はたくさんあるのですが、自分の理解のために投稿しました。 強化学習とは ある環境において、自律エージェントが状況を観測しながら行動することを繰り返し試行し、目的を達成するための最適な意思決定を学習する、機械学習の方法。 教師あり学習とは違い、環境から得られる報酬を元に、行動の良し悪しを評価する。 The Go gopher was designed by Renée French. OpenAI Gym とは 人工知能を研究する非営利企業 OpenAIが作った、強化学習のシミュレーション用プラットフォーム。 オープンソース https://github.com/openai/gym OpenAI Gym インストール方法 1. 基本パッケージのインストール

          OpenAI Gym 入門 - Qiita
        • elmoがもたらしたオーパーツについて | やねうら王 公式サイト

          WCSC27で優勝したelmoがもたらしたのは、たった一行の革命だった。 交差エントロピーで勾配を求めるとき、普通は次式のようになる。 dsig = eval_winrate – teacher_winrate; eval_winrateは、浅い探索(qsearch)の評価値を勝率に変換する関数(シグモイド関数を用いている)で変換したもの。 teacher_winrateは、深い探索(search)の評価値を勝率に変換する関数で変換したもの。 交差エントロピーで勾配を求める場合、上式のように差をとるだけだ。この式の導出については、第4回電王トーナメントのときの白美神のPR文書にある。 elmo式の雑巾絞りはこの式を次のように改良した。 dsig = (eval_winrate -t) + 0.5 * (eval_winrate – teacher_winrate); tはこの局面の手番側が

          • TensorFlowで逆強化学習

            TensorFlowで 逆強化学習 第4回 TensorFlow勉強会 逆

              TensorFlowで逆強化学習
            • 研究概要

              私達は,機械学習の基礎理論の構築と実用的なアルゴリズムの開発, 及び,機械学習技術の実問題への応用研究を行っています. 学習の種類 教師付き学習 教師なし学習 半教師付き学習 強化学習 機械学習の理論とアルゴリズム モデル選択 不偏モデル選択規準 正則化モデル選択規準 能動学習 単一のモデルに対する能動学習 複数のモデルに対する能動学習 追加学習 次元削減 教師付き次元削減 半教師付き次元削減 教師無し次元削減 類似度データからの学習 類似度行列の設計 複数の類似度行列からの学習 非半正定値類似度行列からの学習 異なる分布下での学習 共変量シフト適応 ドメイン適応 マルチタスク学習 はずれ値検出 重要度推定 機械学習の応用 降水量予測 画像復元 ブレインコンピュータインターフェース 微細表面形状測定 ロボット制御 学習の種類 教師付き学習 教師付き学習は,入力(質問)と出力(答え)の組から

              • Richard S. Suttonら著の強化学習本のドラフト版が公開 - めも

                pdf サンプルコード 追記 このドラフト版の前の本 Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. Vol. 1. No. 1. Cambridge: MIT press, 1998. で有名なRichard S. Sutton氏による新しい強化学習本のドラフト版が以下のページより閲覧できます。総計400p超+サンプルコードあり。 pdf タイトル:Reinforcement Learning: An Introduction. Richard S. Sutton and Andrew G. Barto https://webdocs.cs.ualberta.ca/~sutton/book/the-book-2nd.html サンプルコード github.com 追記 バン

                  Richard S. Suttonら著の強化学習本のドラフト版が公開 - めも
                • GitHub - lucidrains/PaLM-rlhf-pytorch: Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                    GitHub - lucidrains/PaLM-rlhf-pytorch: Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM
                  • 深層学習と並ぶ人工知能の巨塔、強化学習とは一体何か - HELLO CYBERNETICS

                    学習の種類 教師あり学習 教師なし学習 半教師あり学習 強化学習 ハッキリとした答えがわからない 良さそうか悪そうかの判断方法自体もわからない 問題設定は遥かに複雑 強化学習を理解する特殊例 強化学習の難しさと課題点 n本腕バンディット問題 問題の状況 行動の価値 知識利用と探査 行動価値関数と行動の決定 Q関数 貪欲法による行動の選択 ソフトマックス行動選択 最後に 行動価値関数に関する続編記事 強化学習を学ぶための書籍 2016年NIPSでも強化学習は話題だった 学習の種類 教師あり学習 教師あり学習では、入力データとそれに対する解答をセットでシステムに与えます。 システムにデータを入力すると、何らかの出力を行います。もしもその出力が解答と違っていれば、システムの出力の仕方を僅かに変更するという形で学習を進めていきます。 システムの出力を データを 解答を システムの出力と解答との違い

                      深層学習と並ぶ人工知能の巨塔、強化学習とは一体何か - HELLO CYBERNETICS
                    • 強化学習

                      トップページ→研究分野と周辺→ 強化学習(Reinforcement Learning)の基本的な枠組みは、図のようになる。エージェント(行動主体)は環境の状況に基づき或る行動を選択し、行動に基づき環境が変化する。環境の変化に伴って、何らかの報酬がエージェントに与えられ、エージェントはより良い行動の選択(意志決定)を学習していく。 教師あり学習が、完全な正解を示すのに対し、強化学習の報酬は、環境の一部の変化に基づく断片的な値でしかない場合が多い。 例えばサッカーの或る場面で、ボールを或る方向へ蹴ったら、味方にパスが渡ったか否か、といった評価が報酬となる。 脳内の快楽物質ドーパミンの放出(報酬)が、動物の行動選択に大きな影響を与える事はまさに強化学習の仕組みで、実際の脳との関連も盛んに研究されている。 強化学習は環境に関する完全な理解が無くても設計出来るため、実際の問題への応用範囲は広いと言

                      • 人工知能学会論文誌 (オンライン)

                        人工知能学会論文誌は,2001年1月に学会誌から分離されオンラインジャーナルとなりました.vol.16 以降の論文がオンラインで参照できます. 論文の閲覧方法 論文はPDF形式で提供しています. PDFファイルを閲覧するには Acrobat Reader などのPDFファイルリーダをご利用ください. Acrobat Reader は日本語の読めるもの(バージョン3.0日本語版か, 4.0以上で日本語フォントもインストールする)を用意してください. オンラインジャーナル提供システム < http://www.jstage.jst.go.jp/browse/tjsai/-char/ja/ > へアクセスしてください. 閲覧方法の詳細な説明書 jsai-olj.pdf(PDF形式) 人工知能学会全国大会論文集 第15回 (2001年度) 以降の人工知能学会全国大会の論文集もJ-Stageを通じて

                        • GitHub - dennybritz/reinforcement-learning: Implementation of Reinforcement Learning Algorithms. Python, OpenAI Gym, Tensorflow. Exercises and Solutions to accompany Sutton's Book and David Silver's course.

                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                            GitHub - dennybritz/reinforcement-learning: Implementation of Reinforcement Learning Algorithms. Python, OpenAI Gym, Tensorflow. Exercises and Solutions to accompany Sutton's Book and David Silver's course.
                          • Reinforcement Learning with Prediction-Based Rewards

                            We’ve developed Random Network Distillation (RND), a prediction-based method for encouraging reinforcement learning agents to explore their environments through curiosity, which for the first time[1] exceeds average human performance on Montezuma’s Revenge. RND achieves state-of-the-art performance, periodically finds all 24 rooms and solves the first level without using demonstrations or having a

                              Reinforcement Learning with Prediction-Based Rewards
                            • 【OpenAI】ロボットハンドとAIでルービックキューブを解く理由(論文解説) | AIDB

                              人型ロボット完成へのロードマップ 人間のように動作するロボットを作ることは、ロボット工学の壮大な課題です。機械学習は、ロボットを手動でプログラミングする代わりに、センサ情報を用いてロボットシステムを適切に制御する方法を学習することで、これを実現する可能性を秘めています。 学習には膨大な量の学習データが必要ですが、物理的なシステム上でそれを取得するのは難しく、コストもかかります。そのため、すべてのデータをシミュレーションで収集する手法が注目されています。 しかし、シミュレーションは実行環境やロボットを細部まで正確に捉えているわけではないため、結果として生じるシミュレーションのデータを現実へ変換させる問題も解決する必要があります。 ロボットに人間のような動作をさせる課題において、実際にどんな研究が行われているのでしょうか。OpenAIのIlge Akkayaら研究者の発表を紹介します。 研究者

                                【OpenAI】ロボットハンドとAIでルービックキューブを解く理由(論文解説) | AIDB
                              • FrontPage - とうごろうぃき

                                添付ファイル: bio_data_mining.png 454件 [詳細] artificial_intelligence.png 436件 [詳細] bioinformatics.png 441件 [詳細] medical_data_mining.png 444件 [詳細] text_mining.png 1023件 [詳細] financial_data_mining.png 430件 [詳細] data_mining.png 449件 [詳細] machine_learning.png 419件 [詳細] reinforcement_learning.png 1088件 [詳細] Copyright © 2009-2017 とうごろう PukiWiki 1.4.7 Copyright © 2001-2006 PukiWiki Developers Team. License is G

                                • 【Unity】Tensor Flowを使ってディープラーニングをする - おもちゃラボ

                                  Unityで簡単にTensorFlowを使ってディープラーニング(Deep Learning)したい場合は、ml-agents(Machine Learning Agents)というフレームワークを使うのが便利です。今回の記事では、ml-agentsの考え方と概要、ml-agentsを使った機械学習の方法を説明します。 記事の内容は次のようになります。 Unityのml-agentsの概要 Anacondaで環境設定 ml-agentsをインポートする TensorFlowが使えるようにセットアップする トレーニング用のバイナリを書き出す 機械学習でトレーニングする Step1. ライブラリのインポート Step2. Hyparametersの設定 Step3. アプリケーションのロード Step4. TensorFlowを使ったディープラーニング Step5. 学習結果の書き出し 学習結

                                    【Unity】Tensor Flowを使ってディープラーニングをする - おもちゃラボ
                                  • From Pixels to Actions: Human-level control through Deep Reinforcement Learning

                                    Posted by Dharshan Kumaran and Demis Hassabis, Google DeepMind, London Remember the classic videogame Breakout on the Atari 2600? When you first sat down to try it, you probably learned to play well pretty quickly, because you already knew how to bounce a ball off a wall in real life. You may have even worked up a strategy to maximise your overall score at the expense of more immediate rewards. Bu

                                      From Pixels to Actions: Human-level control through Deep Reinforcement Learning
                                    • http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

                                      • Q-Learning

                                        Q-Learning Q-LearningはTD学習の一つである.ただし,Q-Learningでは状態と行動を一つのセットとして考える.具体的な例をみながら説明をする. 以下のように状態が遷移する環境があったとする. ここで,状態と行動をセットにして,評価値をセットする.たとえば,状態1における,行動Aと状態1における行動Bをそれぞれ評価するのである.つまり というように図示することができる.このように,それぞれの状態に,その状態で選択できる行動の数だけ評価値がある. このような状態に関連づけられている行動の評価値がどのように更新されるかを考える.それぞれの評価値をQ値と呼ぶ.Q値の更新式は という形で表される.TD学習では遷移した次の状態の評価値をみるが,Q-Learningではその状態について複数の行動に関連づけられた評価値を持つため,その中で最大のものをみる. 実際に状態遷移を繰り返

                                        • ゲームでAIをトレーニングするジム「OpenAI Gym」の環境構築手順 on Mac OS X - Qiita

                                          OpenAI Gym は、ゲームで人工知能を開発・評価するためのプラットフォームです。 「AI用トレーニングジム」を、OpenAIがオープン|WIRED.jp 環境構築はほとんど手順通りに pip install やら brew install するだけでできて、 パックマンとか、 スペースインベーダーとか、 こういうのをとりあえずお試しとしてランダムに動かしてみるだけなら5行ぐらいのコードでできてしまうので、強化学習とか全然わからないけどとりあえず試してみる、というのも最初の一歩目にいいかもしれません。 以下、僕が macOS Sierra で行った環境構築手順です。 OpenAI Gymのインストール インストール手順はREADMEの こちら に書いてあります。

                                            ゲームでAIをトレーニングするジム「OpenAI Gym」の環境構築手順 on Mac OS X - Qiita
                                          • Hybrid computing using a neural network with dynamic external memory

                                            Thank you for visiting nature.com. You are using a browser version with limited support for CSS. To obtain the best experience, we recommend you use a more up to date browser (or turn off compatibility mode in Internet Explorer). In the meantime, to ensure continued support, we are displaying the site without styles and JavaScript.

                                              Hybrid computing using a neural network with dynamic external memory
                                            • CMU 10703: Deep RL and Control

                                              Deep Reinforcement Learning and Control Spring 2017, CMU 10703 Instructors: Katerina Fragkiadaki, Ruslan Satakhutdinov Lectures: MW, 3:00-4:20pm, 4401 Gates and Hillman Centers (GHC) Office Hours: Katerina: Thursday 1.30-2.30pm, 8015 GHC Russ: Friday 1.15-2.15pm, 8017 GHC Teaching Assistants: Devin Schwab: Thursday 2-3pm, 4225 NSH Chun-Liang Li: Thursday 1-2pm, 8F Open study area GHC Renato Negrin

                                              • 外部メモリ(External Memory)を利用した強化学習 - Qiita

                                                今年(2016年)の8月9月にPFNのインターンに参加させてもらいました. そのインターンで,ICML2016にて発表されたControl of Memory, Active Perception, and Action in Minecraft (Oh et al. 2016)で提案されたニューラルネットを使った強化学習のモデルを実装しました.この記事はその解説です.実装にはChainerを使いました. 実装はGithubにあります. ちなみに,レッドブルは一度も飲みませんでした(麦茶ばかり飲んでいた). そもそも強化学習? DQNとはなんぞや? ugonamaさんがめっちゃわかりやすい記事を書いてくれているのでそっちを参照してください. Oh(2016)の概要 Oh(2016)は,部分的な観測(Partial observation)しか与えられないようなタスクを解くことを主眼として,

                                                  外部メモリ(External Memory)を利用した強化学習 - Qiita
                                                • CS 285

                                                  CS 285 at UC Berkeley Deep Reinforcement Learning Lectures: Mon/Wed 5-6:30 p.m., Wheeler 212 NOTE: We are holding an additional office hours session on Fridays from 2:30-3:30PM in the BWW lobby. The OH will be led by a different TA on a rotating schedule. Lecture recordings from the current (Fall 2023) offering of the course: watch here Looking for deep RL course materials from past years? Recordi

                                                  • 超シンプルにTensorFlowでDQN (Deep Q Network) を実装してみる 〜導入編〜  | ALGO GEEKS

                                                    みなさん、DQNしてますか? DQNについては、下記の記事によくまとめられており、実装してみようとした方も多いのではないでしょうか。 DQNの生い立ち + Deep Q-NetworkをChainerで書いた ゼロからDeepまで学ぶ強化学習 しかし、いざ自力で動作させてみようとすると、こんな問題にぶち当たると思います。 「学習時間なげえ。。。」 DQNに限らず、ディープラーニングのモデルを学習させようとすると、平気で数日以上かかります。 そして、学習させたモデルが期待通りの動作をしなかったとしたら、もう投げ出したくなってしまいます。 (よくある話です) なので、筆者が新しいモデルを一から実装する際には、なるべく単純なモデル、データから始めるようにしています。 ここでは、超シンプルなDQNを実装し、動作させてみることにします。 早速いってみましょう。CPUで3分もあれば学習が終わります!

                                                      超シンプルにTensorFlowでDQN (Deep Q Network) を実装してみる 〜導入編〜  | ALGO GEEKS
                                                    • 強化学習とは何か?「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか

                                                      人工知能(AI)技術の1つである機械学習の中には、教師あり学習や教師なし学習のほかに、「強化学習」のように「行動から学ぶ」タイプの学習も存在します。この手法は人間や動物の学習方法と似ており、実社会では非常に有用な学習方法になると考えられています。そこで、似たような仕組みを持つ「遺伝的アルゴリズム」と合わせて「強化学習」について解説します。 合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力

                                                        強化学習とは何か?「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか
                                                      • 【深層強化学習】Ape-X 実装・解説 - Qiita

                                                        Keras + TensorFlow で Ape-X を実装しました。 コードはgithubにあげてあります。 https://github.com/omurammm/apex_dqn 強化学習の知識として、 DQNまでは知っているとわかりやすいと思います。 DQNまでの勉強では以下のサイトが非常に参考になります。 ・ゼロからDeepまで学ぶ強化学習 ・強化学習について学んでみた。(その1) Ape-Xとは 論文:DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY 簡単にいうと、論文のタイトルにもあるように, 優先順位付き経験再生(Prioritized Experience Replay)を分散学習で行おうというやつです。 その性能は・・・ これらのグラフはOpenAI Gym Atari 2600 gamesでテストした結果です。 すごい。。。 学習時間

                                                          【深層強化学習】Ape-X 実装・解説 - Qiita
                                                        • 教師あり学習と教師なし学習 (Vol.9)

                                                          div.hs-menu-wrapper > ul > li" data-pacnav-mobile-width="820"> AISIA AIの実用化 外観検査システム ブログ はじめに 機械学習には「教師あり学習」、「教師なし学習」、「強化学習」という3つの学習方法があります。そして、その背後には「回帰」、「分類」、「クラスタリング」などの統計学があり、解を求める方法として「決定木」、「サポートベクターマシーン」、「k平均法」など多くのアルゴリズムがあります。 「学習方法」と「統計学」と「アルゴリズム」。いったいこの三角関係はどうなっているのでしょうか。まず、「学習方法」と「統計学」の関係から紐解いてみます。 機械学習法と統計学 まずは図1をご覧ください。「教師あり学習」、「教師なし学習」、「強化学習」という3つの学習方法と「回帰」「分類」「クラスタリング」といった統計学の関係をパッと図

                                                            教師あり学習と教師なし学習 (Vol.9)
                                                          • OpenAI、失敗を成功に置き換えて学習する強化学習アルゴリズム「HER」発表

                                                            OpenAIは、失敗から学ぶ強化学習アルゴリズム「HER(Hindsight Experience Replay)」と、そのアルゴリズムを使用して物理ロボットで動作するモデルを訓練するための8つのシミュレートされたロボット環境を発表しました。 訓練するロボット環境には、Fetch researchプラットフォームとShadowHandロボットが含まれます。ロボットアームが物体を操作するいくつかのタスクが用意されており、どれも目標であるゴールが設定されゴールに向かって動作します。 例えば、以下の画像は、黒のパックを押すように弾いて赤丸(ゴール)に停止させるというタスクが行われます。 HERの特徴は、仮にゴールと違う場所に黒パックが停止した場合でも、それはそれで成功と置き換えて学習します。違う場所へ黒パックがスライドしたとしても、そこをバーチャルゴールとして再設定することで今後へ生かすと。 も

                                                              OpenAI、失敗を成功に置き換えて学習する強化学習アルゴリズム「HER」発表
                                                            • 深層学習が強化学習において果たす役割とは?『現場で使える!Python深層強化学習入門』から紹介

                                                              本記事は『現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御』から抜粋したものです。掲載にあたり、一部を編集しています。 この記事では強化学習のアルゴリズムを理解するための前段として、機械学習の概要について説明します。さらに、機械学習において強化学習が他の学習法と本質的に異なる点を明らかにしつつ、その有用性について解説します。最後の節では、深層学習が強化学習において果たす役割について考察します。 1.1 機械学習の分類 昨今の人工知能の目覚ましい発展を支えている基礎技術は、深層学習や強化学習に代表される機械学習であると言えます。本節では、機械学習を構成する3つの手法、すなわち、教師あり学習、教師なし学習、強化学習の概要について説明します。 近年、人工知能あるいはAI(Artificial Intelligence)という言葉をよく耳にします。人工知能と聞くとSF

                                                                深層学習が強化学習において果たす役割とは?『現場で使える!Python深層強化学習入門』から紹介
                                                              • 2017年世界を席巻 AIはなぜ急に賢くなったのか - 日本経済新聞

                                                                2017年、人類は2つの知的なゲームで人工知能(AI)に「勝利宣言」をされている。米グーグルのグループ企業である英ディープマインドが開発した「アルファ碁」は、16年末から17年にかけてインターネットの囲碁サービスに匿名で参加し、プロを含む相手を次々と撃破。17年5月には現時点で世界最強とされる中国のプロ棋士、柯(か)潔(けつ)九段にも3番勝負で3連勝と完勝。「人間と対局するのはこれを最後にする」

                                                                  2017年世界を席巻 AIはなぜ急に賢くなったのか - 日本経済新聞
                                                                • Asynchronous Methods for Deep Reinforcement Learning

                                                                  We propose a conceptually simple and lightweight framework for deep reinforcement learning that uses asynchronous gradient descent for optimization of deep neural network controllers. We present asynchronous variants of four standard reinforcement learning algorithms and show that parallel actor-learners have a stabilizing effect on training allowing all four methods to successfully train neural n

                                                                  • 深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita

                                                                    追記:マリオの全ステージクリアを目指します!(2021/12/30) 深層強化学習で学習したAIマリオで全ステージクリアを目指すプロジェクトをGitHub Pagesで立ち上げました!参加者募集中です! 詳細は以下参照ください 深層強化学習のPyTorchチュートリアルが日本語訳されて…ない! PyTorch勉強中の人にとって助けになるのが公式のチュートリアルです。そんな公式チュートリアル @sugulu_Ogawa_ISID さんが日本語訳して公開してくださっています。 今、深層強化学習に興味津々丸なので、早速確認してみました。 すると… ない! PyTorchのチュートリアル、マリオをプレイするものあって、めっちゃ面白そうなんですよね。というわけで、訳される前のPyTorchの深層強化学習のマリオチュートリアルをやってみました。 ちなみに、PyTorchチュートリアル(日本語翻訳版)の

                                                                      深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita
                                                                    • 多様な強化学習の概念と課題認識

                                                                      Shibuya Synapse #3 〜現在の強化学習に何が足りないのか?〜 の発表スライドです. 同イベントのレポート https://dena.ai/news/201812-shibuyasynapse3rd-report/

                                                                        多様な強化学習の概念と課題認識
                                                                      • 強化学習 - Sideswipe

                                                                        これは 人工知能アドベントカレンダー の14日目の記事です。 人工知能アドベントカレンダーも半分以上終わりました。今回は筆者の体調が最近思わしくないため、短めでいきます(後日加筆修正があるとおもいます)。 強化学習(reinforcement learning)は、教師ありでも教師なし学習でもない第3の機械学習アルゴリズムです*1。 強化学習とは 強化学習は、 エージェント 環境 行動 報酬 が与えられた時に、報酬を最大化するように学習していく(これを方策という)方法です。 強化学習の模式図。エージェントは環境を観測して行動を選択する。行動すると環境から報酬が得られたり、罰が得られたり、なにも起きなかったりする。このフェーズを繰り返して、報酬が最大化されるような方策を得ることが目的になる。 昔テレビかなにかで見たイタズラで、「右足を上げるとテレビがつく」ようにして何も知らない人がテレビの前

                                                                          強化学習 - Sideswipe
                                                                        • TechCrunch | Startup and Technology News

                                                                          The top vehicle safety regulator in the U.S. has launched a formal probe into an April crash involving the all-electric VinFast VF8 SUV that claimed the lives of a family…

                                                                            TechCrunch | Startup and Technology News
                                                                          • GCTの学習メソッドは強化学習の常識を覆すかも知れない | やねうら王 公式サイト

                                                                            昨年の将棋ソフトのオンライン大会である電竜戦で優勝したGCT。最近、floodgate(コンピュータ将棋のオンライン対局場)にgcttest_x6_RTX2080tiという強いソフトが登場した。これはそのGCTの開発者である加納さんが放流されている評価関数の育成中のGCTである。このソフトが2080TiというGPUの性能からすると強すぎるので、2080Tiの6枚刺しではないか、シングル(1枚刺し)だろという議論(罵り合い?)がなんとかちゃんねるでさかんに行われている。 429 名無し名人 (ワッチョイ a301-xfeT)2021/04/06(火) 13:32:52.91ID:1YM8Ydqj0 加納さんのツイートを見たけど、どこにもgcttest_x6_RTX2080tiが2080Tiシングルっていう ツイートは見当たらないよ。 前に序盤定跡を少しだけ使用してレート4100くらいのgct

                                                                            • 知識の探索と活用のジレンマと多腕バンディット問題

                                                                              1 知識の探索と活用のジレンマと 多腕バンディット問題 本多淳也 東京大学 新領域創成科学研究科 助教 FIT2013 2 多腕バンディット問題 (multiarmed bandit problem) • 複数台のスロットマシンをプレイするギャンブラーのモデル • 得られる報酬の確率分布は台によって異なる • なるべく期待値の高い台をプレイしたい 問題: ・ある程度の回数プレイしないと台の良し悪しが分からない ・報酬の期待値の低い台を何度もプレイすると損 3 応用例 1930年ごろ~ • 農地への作付物の選択 • 新薬や新療法の検証 (cf. one-armed bandit) 最近 • 囲碁などのゲーム木探索 • ネットワークルーティング • Web 上の各種サービス (広告表示, ニュース推薦, etc.) 強化学習: 知識の探索 (exploration) と活用 (exploit

                                                                              • Microsoft、データ分析/AIで「Azure Synapse Link」や「リスポンシブルAI」を発表

                                                                                Microsoft、データ分析/AIで「Azure Synapse Link」や「リスポンシブルAI」を発表:Microsoft Build 2020 Microsoftは2020年5月19日(米国時間)、「Microsoft Build 2020」で、データ分析や機械学習/AIに関する複数の発表を行った。これには分析のためのデータのバッチ移動作業を排除する「Azure Synapse Link」や、説明可能でバイアスのないAIを目指す「Responsible AI」、AIのためのスーパーコンピューターが含まれる。 Microsoftは2020年5月19日(米国時間)、オンラインイベント「Microsoft Build 2020」で、データ分析や機械学習/AIに関する複数の発表を行った。これには分析のためのデータのバッチ移動作業を排除する「Azure Synapse Link」や、説明可能

                                                                                  Microsoft、データ分析/AIで「Azure Synapse Link」や「リスポンシブルAI」を発表
                                                                                • ConvNetJS Deep Q Learning Reinforcement Learning with Neural Network demo

                                                                                  ConvNetJS Deep Q Learning Demo Description This demo follows the description of the Deep Q Learning algorithm described in Playing Atari with Deep Reinforcement Learning, a paper from NIPS 2013 Deep Learning Workshop from DeepMind. The paper is a nice demo of a fairly standard (model-free) Reinforcement Learning algorithm (Q Learning) learning to play Atari games. In this demo, instead of Atari ga