並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 159件

新着順 人気順

強化学習の検索結果41 - 80 件 / 159件

  • Google傘下のDeepMindがゲームのルールを教えられなくても勝ち方を勝手に学習していくAI「MuZero」を発表

    人工知能企業の「DeepMind」が、新たに「ルールの知識がゼロでも囲碁・将棋・チェス・Atariの勝ち方を自分で学んでいくことができるAI」を発表しました。「MuZero」と名付けられたAIは、「自分で考えるAI」への大きな一歩だとみられています。 Mastering Atari, Go, chess and shogi by planning with a learned model | Nature https://www.nature.com/articles/s41586-020-03051-4 MuZero: Mastering Go, chess, shogi and Atari without rules | DeepMind https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atar

      Google傘下のDeepMindがゲームのルールを教えられなくても勝ち方を勝手に学習していくAI「MuZero」を発表
    • タクシー配車アルゴリズムへの強化学習活用:Reinforcement Learning Applications in Taxi dispatching and repositioning domain

      タクシー配車における強化学習活用の動向について、DiDi AI Labのアルゴリズムを勉強会用にまとめた資料です。 A survey of reinforcement learning application in taxi dispatching/repositioning domain. The papers are selected mostly from DiDi AI Lab's publications.

        タクシー配車アルゴリズムへの強化学習活用:Reinforcement Learning Applications in Taxi dispatching and repositioning domain
      • 強化学習100題

        Web site created using create-react-app

          強化学習100題
        • ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita

          この記事は自作している強化学習フレームワークの解説記事です。 はじめに 今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。 今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。 このアルゴリズムは以下の状況でかなりの精度を誇ります。 マルコフ決定過程なモデル 状態が離散で現実的な数 行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します 基本アイデア 基本的なアイデアは探索(Exploration)と活用(Exploitation)の分離です。 強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。 私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて

            ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita
          • 機械学習の「Q学習」にベイズ推定を取り入れると一体何が起こるのか?

            機械学習における強化学習の一種である「Q学習」は、行動主体となるエージェントが現在の状況と未来の状況、そして得られる報酬から最適な答えを学習する手法です。そんなQ学習にベイズ推定の要素を取り込む研究が機械学習エンジニアのBrandon Da Silva氏によって行われています。 brandinho.github.io/bayesian-perspective-q-learning/ https://brandinho.github.io/bayesian-perspective-q-learning/ Q学習の基本的な考え方は「ある状態の価値(Q値)は、得られる報酬と次の時点の状態の価値から決まる」というもので、以下の式で表されます。「q(s, a)」は現在の状態からある行動を取った時の価値、「r」は得られる報酬、「q(s', a')」は次の地点での状態からある行動を取った時の価値を表して

              機械学習の「Q学習」にベイズ推定を取り入れると一体何が起こるのか?
            • 強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai

              サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai
              • ネズミはかくれんぼが好きだった 人間に見つけられると超音波で笑い声も - ライブドアニュース

                by ライブドアニュース編集部 ざっくり言うと ドイツの大学の研究チームが、ネズミと「かくれんぼ」をする実験をした ネズミは徐々に学習し、かくれんぼを純粋に楽しんでいる様子だったという 嬉しいときに見せる跳躍や、超音波の笑い声を出すなどしていたそう 提供社の都合により、削除されました。 概要のみ掲載しております。 関連ニュース ランキング 総合 国内 政治 海外 経済 IT スポーツ 芸能 女子

                  ネズミはかくれんぼが好きだった 人間に見つけられると超音波で笑い声も - ライブドアニュース
                • Offline Reinforcement Learning

                  チュートリアル @ 強化学習若手の会 https://young-reinforcement.github.io/ 解説記事(Qiita) https://qiita.com/aiueola/items/90f635200d808f904daf

                    Offline Reinforcement Learning
                  • 強化学習で目指すF-ZERO王者(前編) - Qiita

                    できたもの(途中経過) F-ZEROのコースをsegmentationする深層学習モデルをJetson Nano上で動かしています.480x288,30FPSで処理できています. Realtime "F-ZERO" course segmentation model is running on Jetson Nano. It is part of "gaming AI making challenge" as my personal work.#jetson #nvidia pic.twitter.com/AYCqE75JbG — nobu_e753 (@nobu_e753) September 27, 2019 キャプチャしたものはこちら(キャプチャの過程で負荷がかかり,レートが落ちています) Realtime "F-ZERO" course segmentation model is

                      強化学習で目指すF-ZERO王者(前編) - Qiita
                    • ゲームAI、メタバース、スマートシティ

                      ゲームAI、メタバース、スマートシティについて解説します。

                        ゲームAI、メタバース、スマートシティ
                      • Kaggleシミュレーションコンペで強化学習に取り組むときのTips

                        DeNA, GOのAI技術共有会で発表した資料です。 kaggleのシミュレーションコンペで強化学習に取り組む際に役立ちそうな情報をまとめたものを紹介します。

                          Kaggleシミュレーションコンペで強化学習に取り組むときのTips
                        • 「ITエンジニアのための強化学習理論入門」が発売されます - めもめも

                          www.amazon.co.jp 表題の書籍が技術評論社より発売されることになりました。執筆にご協力いただいた方々には、あらためてお礼を申し上げます。販売開始に先立って、「はじめに」「目次」「図表サンプル」を掲載させていただきますので、先行予約される方の参考にしていただければと思います。 はじめに 「Q LearningとSARSAの違いを説明してください。」皆さんは、この質問に即答できるでしょうか? 本書を読めば、自信を持って答えられます! —— と、謎の宣伝文句(?)から始まりましたが、少しばかり背景を説明しておきましょう。 2015年に『ITエンジニアのための機械学習理論入門』(技術評論社)を出版させていただいた後、驚くほどの勢いで機械学習の入門書が書店にあふれるようになりました。そしてまた、回帰モデルによる数値予測、分類モデルによる画像データの識別など、教師データを用いた機械学習モ

                            「ITエンジニアのための強化学習理論入門」が発売されます - めもめも
                          • 強化学習コンペで交通×AIに挑戦:KDDCUP2020 RL Track 世界3位獲得! - Qiita

                            はじめに Happy Holidays 🎉 NTTドコモの出水です.最終日の本記事では,ドコモR&Dチームで参加した強化学習コンペティションの取組みと活用方法をお届けします! コンペのテーマは「交通$\times$AI」で,タクシーの配車割当てや再配置 (Taxi dispatching & repositioning) を最適化するAIの開発でした🚖 Source : KDD Cup 2020 Reinforcement Learning Competition ドコモR&Dでは,データサイエンス分野の技術力向上を目的に,世界最高峰のデータ分析コンペティションKDD Cupへ毎年参加しています. 2019年は1部門で優勝,続く2020年は3部門で入賞を果たしました1. 世界最高峰のデータ分析競技会「#KDDCUP 2020」の3部門で入賞 2016年から参加を続け、今回の入賞は2年連

                              強化学習コンペで交通×AIに挑戦:KDDCUP2020 RL Track 世界3位獲得! - Qiita
                            • オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ

                              Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transformer とは オフライン強化学習の新たなパラダイム 言語を生成するように行動を生成する 自然言語風アプローチのメリット 条件付き生成:Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer(NeurIPS 2022) Uni[Mask](NeurIPS 2022): MaskedLMの導入 GATO(2022):超汎用エー

                                オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
                              • Kaggleコンペティションの振り返り - ANDPAD Tech Blog

                                こんにちは! 今回の記事はデータ基盤チームに所属しているエンジニアよりお届けいたします。 ANDPADのデータ基盤チームはプロダクト利用状況の分析、分析基盤の整備、機械学習技術のプロダクトへの導入検討など主にデータに関わる業務を担当しています。 チームメンバーには技術研鑽に積極的な方が多く、雑談の際はプライベートで行っている分析の話やデータ分析の大会の話で盛り上がることがあります。 本記事では過去に参加したKaggleコンペティションについての話を紹介させていただきます。チームの雰囲気について感じていただけますと幸いです。 今回参加したコンペティション https://www.kaggle.com/c/lux-ai-2021 Lux AIというコンペティションで、強いゲームAIを開発することが目的となります。 Lux AIは二人で行うターン制の対戦ゲームです。それぞれのプレーヤーはユニット

                                  Kaggleコンペティションの振り返り - ANDPAD Tech Blog
                                • 【強化学習】ついに人間を超えた!?Agent57を解説/実装してみた(Keras-RL) - Qiita

                                  強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたようです。 早速実装してみました。 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない点はご了承ください ※解釈違いの内容がある可能性もご注意ください(理解が追いついていない部分があります) コード全体 本記事で作成したコードは以下です。 github GoogleColaboratory(実行結果付き) ※GoogleColaboratoryはmultiprocessingの相性が悪いらしく1Actorのみの学習となります) ※MountainCarの学習をのせています 追記:自作フレームワークを作成しています。そちらの実装の方が正確なコードとなります。 目次 構成としては前半が技術解説で後半が実装の説明になります。 Agent57とは NGU(Never Give Up

                                    【強化学習】ついに人間を超えた!?Agent57を解説/実装してみた(Keras-RL) - Qiita
                                  • PFN、PyTorchユーザ向けに深層強化学習ライブラリ 「PFRL」を公開 | AI専門ニュースメディア AINOW

                                    最終更新日: 2021年12月13日 株式会社Preferred Networks(PFN)は、PyTorchユーザー向けの深層強化学習ライブラリ「PFRL(ピーエフアールエル)」を、2020年7月30日にオープンソースソフトウェア(OSS)として公開しました。 PFRLは、PFNが深層学習フレームワークをChainerからPyTorchへ移行してPyTorchコミュニティと連携を強化する一環で、ChainerRLの後継ライブラリとして公開されました。 PFNは2019年12月に深層学習フレームワーク「Chainer」のメジャーアップデートを終了すると発表し、研究開発基盤をFacebook社の「PyTorch」に順次移行しました。 【PFRLの特長】 最新の研究に基づく深層強化学習アルゴリズム・深層強化学習機能が実装。それらを比較したり、組み合わせたりして実験することが可能。 特に重要な9

                                      PFN、PyTorchユーザ向けに深層強化学習ライブラリ 「PFRL」を公開 | AI専門ニュースメディア AINOW
                                    • 大規模言語モデル時代のHuman-in-the-Loop機械学習

                                      画像の認識・理解シンポジウム(MIRU2023)チュートリアル

                                        大規模言語モデル時代のHuman-in-the-Loop機械学習
                                      • Discovering novel algorithms with AlphaTensor

                                        Research Discovering novel algorithms with AlphaTensor Published 5 October 2022 Authors Alhussein Fawzi, Matej Balog, Bernardino Romera-Paredes, Demis Hassabis, Pushmeet Kohli First extension of AlphaZero to mathematics unlocks new possibilities for research Algorithms have helped mathematicians perform fundamental operations for thousands of years. The ancient Egyptians created an algorithm to mu

                                          Discovering novel algorithms with AlphaTensor
                                        • 大規模言語モデルのための強化学習|npaka

                                          以下の記事が面白かったので、軽く要約しました。 ・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いました。「教師あり学習」 (Instructionチューニング) で十分ではないでしょうか? 私は、ある程度納得のいく理論的な議論を思いつきました。そして、特にChatGPTのようなモデルには、強化学習のケースを支持するだけでなく、それを必要とする追加の論拠があることに気がつきました。この追加の議論は、OpenAIのJohn Schulmanによる講演の(前半部分で)綴られています。この投稿は、彼の主張をより多くの言葉で繰り返し、また、明確

                                            大規模言語モデルのための強化学習|npaka
                                          • 180分待ち! AIロボットカー競技「DeepRacerリーグ」日本初開催、これは面白い【AWS Summit Tokyo 2019】

                                            千葉県の幕張メッセで6月12日~14日の3日間開催される「AWS Summit Tokyo 2019」が開幕した。 会期中には基調講演やさまざまな事例セッションと展示が行われる。 注目の展示の1つに、アマゾンが2018年の自社カンファレンス「re:Invent2018」で発表した機械学習を学ぶためのAIロボットカー競技「DeepRacerリーグ」が開催される。会期を通してコースを完走するタイムを競い、トップのチームは今年のre:Invent2019に招待されるという太っ腹な企画だ。 国内初開催とあって参加希望者が殺到し、待ち時間は一時、180分になっていた。

                                              180分待ち! AIロボットカー競技「DeepRacerリーグ」日本初開催、これは面白い【AWS Summit Tokyo 2019】
                                            • AlphaDev discovers faster sorting algorithms

                                              Impact AlphaDev discovers faster sorting algorithms Published 7 June 2023 Authors Daniel J. Mankowitz and Andrea Michi New algorithms will transform the foundations of computing Digital society is driving increasing demand for computation, and energy use. For the last five decades, we relied on improvements in hardware to keep pace. But as microchips approach their physical limits, it’s critical t

                                                AlphaDev discovers faster sorting algorithms
                                              • 実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている

                                                AI開発企業のDeepMindが開発し、人間のトップ棋士を打ち負かしたことで話題を呼んだ囲碁AIの「AlphaGo」や、あらゆるボードゲームを学習できる進化版AIの「AlphaZero」のコアとなる部分が、実はひっそりとGitHubでオープンソース化されていると指摘されています。 Do you know that DeepMind has actually open-sourced the heart of AlphaGo & AlphaZero? It’s hidden in an unassuming repo called “mctx”: https://t.co/GpNtwH9BxA It provides JAX-native Monte Carlo Tree Search (MCTS) that runs on batches of inputs, in parallel, a

                                                  実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている
                                                • GitHub - lucidrains/PaLM-rlhf-pytorch: Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                    GitHub - lucidrains/PaLM-rlhf-pytorch: Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM
                                                  • 【OpenAI】ロボットハンドとAIでルービックキューブを解く理由(論文解説) | AIDB

                                                    人型ロボット完成へのロードマップ 人間のように動作するロボットを作ることは、ロボット工学の壮大な課題です。機械学習は、ロボットを手動でプログラミングする代わりに、センサ情報を用いてロボットシステムを適切に制御する方法を学習することで、これを実現する可能性を秘めています。 学習には膨大な量の学習データが必要ですが、物理的なシステム上でそれを取得するのは難しく、コストもかかります。そのため、すべてのデータをシミュレーションで収集する手法が注目されています。 しかし、シミュレーションは実行環境やロボットを細部まで正確に捉えているわけではないため、結果として生じるシミュレーションのデータを現実へ変換させる問題も解決する必要があります。 ロボットに人間のような動作をさせる課題において、実際にどんな研究が行われているのでしょうか。OpenAIのIlge Akkayaら研究者の発表を紹介します。 研究者

                                                      【OpenAI】ロボットハンドとAIでルービックキューブを解く理由(論文解説) | AIDB
                                                    • 強化学習とは何か?「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか

                                                      人工知能(AI)技術の1つである機械学習の中には、教師あり学習や教師なし学習のほかに、「強化学習」のように「行動から学ぶ」タイプの学習も存在します。この手法は人間や動物の学習方法と似ており、実社会では非常に有用な学習方法になると考えられています。そこで、似たような仕組みを持つ「遺伝的アルゴリズム」と合わせて「強化学習」について解説します。 合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力

                                                        強化学習とは何か?「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか
                                                      • 深層学習が強化学習において果たす役割とは?『現場で使える!Python深層強化学習入門』から紹介

                                                        本記事は『現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御』から抜粋したものです。掲載にあたり、一部を編集しています。 この記事では強化学習のアルゴリズムを理解するための前段として、機械学習の概要について説明します。さらに、機械学習において強化学習が他の学習法と本質的に異なる点を明らかにしつつ、その有用性について解説します。最後の節では、深層学習が強化学習において果たす役割について考察します。 1.1 機械学習の分類 昨今の人工知能の目覚ましい発展を支えている基礎技術は、深層学習や強化学習に代表される機械学習であると言えます。本節では、機械学習を構成する3つの手法、すなわち、教師あり学習、教師なし学習、強化学習の概要について説明します。 近年、人工知能あるいはAI(Artificial Intelligence)という言葉をよく耳にします。人工知能と聞くとSF

                                                          深層学習が強化学習において果たす役割とは?『現場で使える!Python深層強化学習入門』から紹介
                                                        • 深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita

                                                          追記:マリオの全ステージクリアを目指します!(2021/12/30) 深層強化学習で学習したAIマリオで全ステージクリアを目指すプロジェクトをGitHub Pagesで立ち上げました!参加者募集中です! 詳細は以下参照ください 深層強化学習のPyTorchチュートリアルが日本語訳されて…ない! PyTorch勉強中の人にとって助けになるのが公式のチュートリアルです。そんな公式チュートリアル @sugulu_Ogawa_ISID さんが日本語訳して公開してくださっています。 今、深層強化学習に興味津々丸なので、早速確認してみました。 すると… ない! PyTorchのチュートリアル、マリオをプレイするものあって、めっちゃ面白そうなんですよね。というわけで、訳される前のPyTorchの深層強化学習のマリオチュートリアルをやってみました。 ちなみに、PyTorchチュートリアル(日本語翻訳版)の

                                                            深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita
                                                          • TechCrunch | Startup and Technology News

                                                            Tomorrow’s the big day, and we’re expecting big things – well, one really big thing for sure. Apple will kick of WWDC 2023 at 10AM PT Monday June 5 with its customary keynote. As ever, the event

                                                              TechCrunch | Startup and Technology News
                                                            • GCTの学習メソッドは強化学習の常識を覆すかも知れない | やねうら王 公式サイト

                                                              昨年の将棋ソフトのオンライン大会である電竜戦で優勝したGCT。最近、floodgate(コンピュータ将棋のオンライン対局場)にgcttest_x6_RTX2080tiという強いソフトが登場した。これはそのGCTの開発者である加納さんが放流されている評価関数の育成中のGCTである。このソフトが2080TiというGPUの性能からすると強すぎるので、2080Tiの6枚刺しではないか、シングル(1枚刺し)だろという議論(罵り合い?)がなんとかちゃんねるでさかんに行われている。 429 名無し名人 (ワッチョイ a301-xfeT)2021/04/06(火) 13:32:52.91ID:1YM8Ydqj0 加納さんのツイートを見たけど、どこにもgcttest_x6_RTX2080tiが2080Tiシングルっていう ツイートは見当たらないよ。 前に序盤定跡を少しだけ使用してレート4100くらいのgct

                                                              • Microsoft、データ分析/AIで「Azure Synapse Link」や「リスポンシブルAI」を発表

                                                                Microsoft、データ分析/AIで「Azure Synapse Link」や「リスポンシブルAI」を発表:Microsoft Build 2020 Microsoftは2020年5月19日(米国時間)、「Microsoft Build 2020」で、データ分析や機械学習/AIに関する複数の発表を行った。これには分析のためのデータのバッチ移動作業を排除する「Azure Synapse Link」や、説明可能でバイアスのないAIを目指す「Responsible AI」、AIのためのスーパーコンピューターが含まれる。 Microsoftは2020年5月19日(米国時間)、オンラインイベント「Microsoft Build 2020」で、データ分析や機械学習/AIに関する複数の発表を行った。これには分析のためのデータのバッチ移動作業を排除する「Azure Synapse Link」や、説明可能

                                                                  Microsoft、データ分析/AIで「Azure Synapse Link」や「リスポンシブルAI」を発表
                                                                • ITエンジニアのための強化学習理論入門

                                                                  2020年7月17日紙版発売 2020年7月17日電子版発売 中井悦司 著 A5判/296ページ 定価3,278円(本体2,980円+税10%) ISBN 978-4-297-11515-9 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 前作の『ITエンジニアのための機械学習理論入門』から,5年経過しましたが,AI(人工知能)や機械学習に対しての期待と関心はまったく衰えません。むしろ機械学習の利用はIT業界で当然のものとなり,さらなる活用がさまざまな場所で行われています。前作では一般的な機械学習について解説しましたが,試行錯誤しながら1つの解をもとめていく「強化学

                                                                    ITエンジニアのための強化学習理論入門
                                                                  • Illustrating Reinforcement Learning from Human Feedback (RLHF)

                                                                    Illustrating Reinforcement Learning from Human Feedback (RLHF) This article has been translated to Chinese 简体中文 and Vietnamese đọc tiếng việt. Language models have shown impressive capabilities in the past few years by generating diverse and compelling text from human input prompts. However, what makes a "good" text is inherently hard to define as it is subjective and context dependent. There are

                                                                      Illustrating Reinforcement Learning from Human Feedback (RLHF)
                                                                    • 自作AIがスーパーマリオ1-1をやっとのことでクリアした - Qiita

                                                                      はじめに 今更感満載ですが・・・ ↑ ↑ ↑ このマリオ君が ↑ ↑ ↑ こうなるように頑張った話! Gitは以下。環境構築の流れとかも以下を参照。 開発環境 プラットフォームとか Hyper-V Ubuntu18 Anaconda Python3.8 Tensorflow2.2.0など、Pythonライブラリ色々 (envs/conda_env.yaml参照) エミュレータ FCEUX 2.2.2 開発環境以外の動作確認済み環境 GPU on WSL2環境 WSL2 Ubuntu20 GPU環境 (cuda toolkit 10.2) それより上のレイヤは開発環境と同様 ⇒ 学習がCPUよりとても速かった。 あと、WSLなのでHyper-Vより軽量。 ここの詳細はメインとは逸れるので、末尾に記載。 マリオが動くまで AnacondaとエミュレータであるFCEUX 2.2.2の環境構築は終

                                                                        自作AIがスーパーマリオ1-1をやっとのことでクリアした - Qiita
                                                                      • 第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編)

                                                                        第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編):AWS DeepRacer入門(1/3 ページ) 強化学習が初めての人に最適な「AWS DeepRacerのコンソールとシミュレーション環境」を使って、ディープラーニングを体験してみよう。コンソール上で強化学習の各ハイパーパラメーターを設定してモデルに学習させ、さらに評価し、バーチャルレースにデプロイするまでの手順を解説する。 連載目次 AWS DeepRacerは、自律走行を行うロボットカーである(第1回詳しく説明した)。その走行エンジンの作成には、ディープラーニングの「強化学習」と呼ばれる手法が用いられる(第2回詳しく説明した)。強化学習による「学習」や「評価」は、シミュレーション環境(=シミュレーター)上で行えるようになっており、車の走り方、つまり強化学習のハイパーパラメーター(=学習を調整する

                                                                          第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編)
                                                                        • 強化学習「理論」入門

                                                                          2022年度 TopSE「機械学習概論」コースの一部として使用した講義資料です。 https://www.topse.jp/ja/curriculum-lectures.html

                                                                            強化学習「理論」入門
                                                                          • 第1回 強化学習が楽しく学べる自律走行レーシングカー「AWS DeepRacer」とは?

                                                                            連載目次 AWS DeepRacerを知っているだろうか? カンファレンス「AWS re:Invent 2018」(2018年11月25日開催)の基調講演で発表されてから注目を集め(動画1)、2019年5月23日開催の「AWS Summit Tokyo 2019」で日本でもお披露目された。 DeepRacerは、自律走行を行うレーシングカーで、その走行エンジンに機械学習モデル(より厳密には、ディープラーニングの深層強化学習と呼ばれる手法)が用いられる。その機械学習モデルは、独自のアルゴリズム(厳密には、強化学習の報酬関数など)を手動で定義したうえで、AWS上で学習&評価して、最終的に独自のモデルに作り上げる仕組みとなっている。 作り上げたモデルは、コンピュータ上のバーチャルレースや、現実での実機レースでの走行エンジンとして利用できる。走行タイムを他の人と競い合えるので、世界で一番優れた機械

                                                                              第1回 強化学習が楽しく学べる自律走行レーシングカー「AWS DeepRacer」とは?
                                                                            • The Paths Perspective on Value Learning

                                                                              Introduction In the last few years, reinforcement learning (RL) has made remarkable progress, including beating world-champion Go players, controlling robotic hands, and even painting pictures. One of the key sub-problems of RL is value estimation – learning the long-term consequences of being in a state. This can be tricky because future returns are generally noisy, affected by many things other

                                                                                The Paths Perspective on Value Learning
                                                                              • Agent57: Outperforming the human Atari benchmark

                                                                                Research Agent57: Outperforming the human Atari benchmark Published 31 March 2020 Authors Adrià Puigdomènech, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell The Atari57 suite of games is a long-standing benchmark to gauge agent performance across a wide range of tasks. We’ve developed Agent57, the first deep reinforcement learning agent to obtain a

                                                                                  Agent57: Outperforming the human Atari benchmark
                                                                                • MATLAB および Simulink による強化学習

                                                                                  最近のニュースで、強化学習のアルゴリズムがどのようにして囲碁、Dota 2、Starcraft 2 などのゲームでプロを破ったかが取り上げられました。強化学習は、機械学習の一種であり、ビデオゲームからロボット工学、自動運転車のような複雑な用途における人工知能の使用を可能にします。 プロジェクトで強化学習の技術を活用することに興味があっても、これまで一度も使ったことがないとしたら、何から始めたらいいでしょうか。 この ebook は、MATLAB® および Simulink® で強化学習を始められるように、用語を解説し、例やチュートリアル、評価版ソフトウェアをご紹介します ebook をダウンロードすると、以下の内容を学習することができます。 セクション 1: 基礎の理解と環境の設定 強化学習の基礎と、従来の制御設計との類似点や相違点を学びます。教師あり学習、教師なし学習、強化学習の間の相違

                                                                                    MATLAB および Simulink による強化学習