並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 181件

新着順 人気順

強化学習の検索結果41 - 80 件 / 181件

  • 第2回 AIの強化学習の基礎を学ぼう

    AI・機械学習における「強化学習」の基礎知識と基本用語を、AWS DeepRacerの視点で解説。強化学習で特に重要な「報酬関数」については、重点的に説明する。 連載目次 AWS DeepRacerは、自律走行を行うミニカーである(前回詳しく説明した)。その走行エンジンにAI(人工知能)の機械学習モデル(より厳密には、ディープラーニングの「強化学習」と呼ばれる手法)が用いられる。強化学習(Reinforcement Learning)とは、次に取るべき行動を予測する機械学習モデルを作成するための学習方法である。DeepRacerでいえば、自動走行において「前に進むか」「右にハンドルを切るか」といった次に取るべき行動を予測するための走行エンジンを作成できるということだ。 本稿では、その強化学習の基礎について、AWS Summit Tokyo 2019で開かれた「DeepRacerワークショッ

      第2回 AIの強化学習の基礎を学ぼう
    • 東大松尾研、深層強化学習の無料講座 受講学生を募集

      東京大学 松尾豊研究室が、深層強化学習のオンライン無料講座を2月13日にスタートする。深層学習の基礎を習得済みの学生向け。ロボット制御、ゲームAI、物理シミュレーションなどの研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指す。 大学院、大学、高専、専門学校、高校、中学などの学生向け。主に松尾研の院生が講義するが、ソニーの研究開発組織・Sony AIの河本献太氏も招く。 演習を中心に構成された講義を、Webブラウザのみで受講できる。2月13日から3月3日の全6回で、最終課題の発表会を3月末に行う。 受講者は、深層学習の基礎知識を備え,基礎的な実装が自身でできることが条件だ。 関連記事 AI入門の人気講座を日本語化 講師に松尾豊氏 「すべての人のためのAIリテラシー講座」無料公開 AIの基礎が学べる人気の動画講座の日本語版公開。「Coursera」で世界60万人以上が受講

        東大松尾研、深層強化学習の無料講座 受講学生を募集
      • ローカルでも動く!?日本語に特化した強化学習済み対話GPT言語モデルを検証してみる - Qiita

        はじめに 元AI女子高生「りんな」をご存知でしょうか LINEに突如現れたAI女子高生で話題となっていたと思いますので、ご存知の方も多いかとおもいます。 先日「りんな」の開発元であるrinna社から日本語特化の学習がされたGPT-2モデルが 商用利用可能なMITライセンス で公開されました。 rinna、人間の評価を利用したGPT言語モデルの強化学習に成功 本モデルは、 ChatGPTに用いられている学習手法である、人間の評価を利用したGPT言語モデルの強化学習に成功している とのことです。 かつ ローカル環境でも動作する ようです。 本記事では、その対話GPT言語モデルの動作を見てみようと思う 目次 動作環境 モデル動作確認(GoogleColab) ローカル環境で実行 さいごに 動作環境 検証環境 google colaboratory(Colab Pro版) ローカル検証環境 Win

          ローカルでも動く!?日本語に特化した強化学習済み対話GPT言語モデルを検証してみる - Qiita
        • タクシー配車アルゴリズムへの強化学習活用:Reinforcement Learning Applications in Taxi dispatching and repositioning domain

          タクシー配車における強化学習活用の動向について、DiDi AI Labのアルゴリズムを勉強会用にまとめた資料です。 A survey of reinforcement learning application in taxi dispatching/repositioning domain. The papers are selected mostly from DiDi AI Lab's publications.

            タクシー配車アルゴリズムへの強化学習活用:Reinforcement Learning Applications in Taxi dispatching and repositioning domain
          • 強化学習100題

            Web site created using create-react-app

              強化学習100題
            • ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita

              この記事は自作している強化学習フレームワークの解説記事です。 はじめに 今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。 今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。 このアルゴリズムは以下の状況でかなりの精度を誇ります。 マルコフ決定過程なモデル 状態が離散で現実的な数 行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します 基本アイデア 基本的なアイデアは探索(Exploration)と活用(Exploitation)の分離です。 強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。 私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて

                ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita
              • 強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai

                サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                  強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai
                • 自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita

                  PyTorch の社内勉強会の題材にしたいと思い立ち、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいましたが。 動作環境 Google Colaboratory の CPUランタイムにて動作を確認しました。 概略 おおまかな処理フローは次図の通りです。盤面情報を受け取った先攻方策と後攻方策は、○×を書き込む場所を返します。この先攻方策と後攻方策に AI を実装し自己対戦させます。 盤面情報は、空白マスをゼロ、先攻 ○ を+1、後攻 × を-1とした形状 (H,W)=(3,3) の二次元配列とします。 盤面座標は、場合により二次元座標と1次元に展開したフラット座標を使い分けます。 三目並べの

                    自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita
                  • 強化学習で目指すF-ZERO王者(前編) - Qiita

                    できたもの(途中経過) F-ZEROのコースをsegmentationする深層学習モデルをJetson Nano上で動かしています.480x288,30FPSで処理できています. Realtime "F-ZERO" course segmentation model is running on Jetson Nano. It is part of "gaming AI making challenge" as my personal work.#jetson #nvidia pic.twitter.com/AYCqE75JbG — nobu_e753 (@nobu_e753) September 27, 2019 キャプチャしたものはこちら(キャプチャの過程で負荷がかかり,レートが落ちています) Realtime "F-ZERO" course segmentation model is

                      強化学習で目指すF-ZERO王者(前編) - Qiita
                    • Kaggleシミュレーションコンペで強化学習に取り組むときのTips

                      DeNA, GOのAI技術共有会で発表した資料です。 kaggleのシミュレーションコンペで強化学習に取り組む際に役立ちそうな情報をまとめたものを紹介します。

                        Kaggleシミュレーションコンペで強化学習に取り組むときのTips
                      • 「ITエンジニアのための強化学習理論入門」が発売されます - めもめも

                        www.amazon.co.jp 表題の書籍が技術評論社より発売されることになりました。執筆にご協力いただいた方々には、あらためてお礼を申し上げます。販売開始に先立って、「はじめに」「目次」「図表サンプル」を掲載させていただきますので、先行予約される方の参考にしていただければと思います。 はじめに 「Q LearningとSARSAの違いを説明してください。」皆さんは、この質問に即答できるでしょうか? 本書を読めば、自信を持って答えられます! —— と、謎の宣伝文句(?)から始まりましたが、少しばかり背景を説明しておきましょう。 2015年に『ITエンジニアのための機械学習理論入門』(技術評論社)を出版させていただいた後、驚くほどの勢いで機械学習の入門書が書店にあふれるようになりました。そしてまた、回帰モデルによる数値予測、分類モデルによる画像データの識別など、教師データを用いた機械学習モ

                          「ITエンジニアのための強化学習理論入門」が発売されます - めもめも
                        • 強化学習コンペで交通×AIに挑戦:KDDCUP2020 RL Track 世界3位獲得! - Qiita

                          はじめに Happy Holidays 🎉 NTTドコモの出水です.最終日の本記事では,ドコモR&Dチームで参加した強化学習コンペティションの取組みと活用方法をお届けします! コンペのテーマは「交通$\times$AI」で,タクシーの配車割当てや再配置 (Taxi dispatching & repositioning) を最適化するAIの開発でした🚖 Source : KDD Cup 2020 Reinforcement Learning Competition ドコモR&Dでは,データサイエンス分野の技術力向上を目的に,世界最高峰のデータ分析コンペティションKDD Cupへ毎年参加しています. 2019年は1部門で優勝,続く2020年は3部門で入賞を果たしました1. 世界最高峰のデータ分析競技会「#KDDCUP 2020」の3部門で入賞 2016年から参加を続け、今回の入賞は2年連

                            強化学習コンペで交通×AIに挑戦:KDDCUP2020 RL Track 世界3位獲得! - Qiita
                          • オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ

                            Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transformer とは オフライン強化学習の新たなパラダイム 言語を生成するように行動を生成する 自然言語風アプローチのメリット 条件付き生成:Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer(NeurIPS 2022) Uni[Mask](NeurIPS 2022): MaskedLMの導入 GATO(2022):超汎用エー

                              オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
                            • 【強化学習】ついに人間を超えた!?Agent57を解説/実装してみた(Keras-RL) - Qiita

                              強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたようです。 早速実装してみました。 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない点はご了承ください ※解釈違いの内容がある可能性もご注意ください(理解が追いついていない部分があります) コード全体 本記事で作成したコードは以下です。 github GoogleColaboratory(実行結果付き) ※GoogleColaboratoryはmultiprocessingの相性が悪いらしく1Actorのみの学習となります) ※MountainCarの学習をのせています 追記:自作フレームワークを作成しています。そちらの実装の方が正確なコードとなります。 目次 構成としては前半が技術解説で後半が実装の説明になります。 Agent57とは NGU(Never Give Up

                                【強化学習】ついに人間を超えた!?Agent57を解説/実装してみた(Keras-RL) - Qiita
                              • PFN、PyTorchユーザ向けに深層強化学習ライブラリ 「PFRL」を公開 | AI専門ニュースメディア AINOW

                                最終更新日: 2021年12月13日 株式会社Preferred Networks(PFN)は、PyTorchユーザー向けの深層強化学習ライブラリ「PFRL(ピーエフアールエル)」を、2020年7月30日にオープンソースソフトウェア(OSS)として公開しました。 PFRLは、PFNが深層学習フレームワークをChainerからPyTorchへ移行してPyTorchコミュニティと連携を強化する一環で、ChainerRLの後継ライブラリとして公開されました。 PFNは2019年12月に深層学習フレームワーク「Chainer」のメジャーアップデートを終了すると発表し、研究開発基盤をFacebook社の「PyTorch」に順次移行しました。 【PFRLの特長】 最新の研究に基づく深層強化学習アルゴリズム・深層強化学習機能が実装。それらを比較したり、組み合わせたりして実験することが可能。 特に重要な9

                                  PFN、PyTorchユーザ向けに深層強化学習ライブラリ 「PFRL」を公開 | AI専門ニュースメディア AINOW
                                • 言語的抽象化で突破するプロンプトコーディング(自然言語強化学習コーディングと高級言語強化学習コーディングの違い)|落合陽一

                                  GPT-4が出てからプロンプトコーディングが楽しい.極意がある.言語である.言語である抽象性を使うことで新規オブジェクト定義も強化学習もそして,説明可能AIの文脈も含めて研究可能なのである. 1. オブジェクトを作成 2. オブジェクトはサブオブジェクトを持つ 3. サブオブジェクトは特定の知識や能力を持つ 4. サブオブジェクトは特定の状態を認識する能力を持つ 5. 初期状態は特定の条件を満たす 6. サブオブジェクトは特定の状態を認識できる 7. 管理オブジェクトが存在 8.… https://t.co/VtdivKnM3a pic.twitter.com/4lckde5uyf — 落合陽一 Yoichi OCHIAI (@ochyai) March 20, 2023

                                    言語的抽象化で突破するプロンプトコーディング(自然言語強化学習コーディングと高級言語強化学習コーディングの違い)|落合陽一
                                  • ロボット犬がリアル犬の動きを物真似 Googleが強化学習システム開発

                                    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Googleの研究開発部門であるGoogle Researchとカリフォルニア大学バークレー校による研究チームが開発した「Learning Agile Robotic Locomotion Skills by Imitating Animals」は、本物の動物の動きから四足歩行ロボットの制御システムを構築する強化学習フレームワークだ。高速歩行から回転、ジャンプ、サイドステップなど、実世界の動物が行う動作を四足歩行ロボットが習得する。 本物の犬のモーションデータから学習した運動能力を発揮するロボット  (上)犬から記録したモーションキャプチャデータ (中央)基準となる動きをシミュレーションし

                                      ロボット犬がリアル犬の動きを物真似 Googleが強化学習システム開発
                                    • 大規模言語モデルのための強化学習|npaka

                                      以下の記事が面白かったので、軽く要約しました。 ・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いました。「教師あり学習」 (Instructionチューニング) で十分ではないでしょうか? 私は、ある程度納得のいく理論的な議論を思いつきました。そして、特にChatGPTのようなモデルには、強化学習のケースを支持するだけでなく、それを必要とする追加の論拠があることに気がつきました。この追加の議論は、OpenAIのJohn Schulmanによる講演の(前半部分で)綴られています。この投稿は、彼の主張をより多くの言葉で繰り返し、また、明確

                                        大規模言語モデルのための強化学習|npaka
                                      • Unity Learnチュートリアル「ML-Agents:ハチドリ」で強化学習を始めよう|①Flowerクラスの実装

                                        ML-Agents:ハチドリ Unityには、強化学習を構築するためのフレームワークであるML-Agentsがあります。また、Unityの公式なチュートリアル&コースウェアを提供するUnity Learnにおいて、このML-Agentsのチュートリアルを提供する「ML-Agents:ハチドリ」があります。 「ML-Agents:ハチドリ」は、Humming bird (ハチドリ)が蜜を吸うゲームの中で、ハチドリが効率的に蜜を吸うことをゴールとして、強化学習を用いてハチドリをトレーニングするための学習コンテンツです。 この記事は、私が「ML-Agents:ハチドリ」を学習した際に、重要だと考えた事項を備忘用にメモするためのものです。 プロジェクト:①Flower.cs 本プロジェクトでは、個々の花の機能のスクリプトを作成します。ハチドリはこの花と直接やりとりをするので、適切な反応をする必要が

                                          Unity Learnチュートリアル「ML-Agents:ハチドリ」で強化学習を始めよう|①Flowerクラスの実装
                                        • ルービックキューブを一瞬で解くことに深層強化学習アルゴリズムが成功

                                          by Olav Ahrens Røtne 囲碁のトップ棋士に勝利したAI「AlphaGo」は、自らの進化形として生まれた「AlphaGo Zero」に、誕生からわずか30時間で超えられてしまいました。AlphaGoとAlphaGo Zeroの違いは、AlphaGo Zeroが人間の棋譜を参考にせず、自身による強化学習で鍛錬を重ねたという点にありました。これと同じように、カリフォルニア大学アーバイン校(UCI)が生み出した深層強化学習アルゴリズム「DeepCubeA」は、人間の手助けなく、ルービックキューブをほんの一瞬で解けるようになったそうです。 UCI researchers’ deep learning algorithm solves Rubik’s Cube faster than any human | UCI News | UCI https://news.uci.edu/20

                                            ルービックキューブを一瞬で解くことに深層強化学習アルゴリズムが成功
                                          • NVIDIAがロボット開発シミュレータ「Isaac Sim」を大幅アップデート 物流倉庫/製造業/ROS/ルート設定/強化学習など機能アップ - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                            NVIDIAはCES 2023にて、ロボティクスシミュレーションツールであるIsaac Simの大幅なアップデートを発表した。最新バージョンは製造および物流ロボットのユースケースのパフォーマンスと機能の改善に重点を置いている。これにより、開発者や研究者はインテリジェントなロボットのトレーニングと展開を加速させるデジタルツインを作成できるようになる。 人や複雑なコンベアシステムのシミュレーション環境をサポート 人間と協働ロボット、自律搬送ロボットの並行作業がますます増えるなか、人間とその一般的な行動をシミュレーションに追加することが重要になっている。Isaac Simの新しい人間シミュレーション機能により、人間のキャラクターを倉庫や工場に追加し、荷物を積み重ねたり、カートを押したりするなど、よくある動作を実行する作業を課すことができる。最も一般的な動作の多くは既にサポートされているため、コマ

                                              NVIDIAがロボット開発シミュレータ「Isaac Sim」を大幅アップデート 物流倉庫/製造業/ROS/ルート設定/強化学習など機能アップ - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                            • Kaggleの強化学習コンペがグダグダだった話 - Qiita

                                              TL; DR 強化学習コンペなのにルールベースのほうが強かった 強化学習コンペなのに、コンピュータが全然強化学習してくれない 優勝者のポエムが読みにくいしうざい はじめに みなさまはKaggleを知っていますでしょうか。 世の中にはKaggleというAIのコンペティションを開いているサイトがあります。 Kaggleでは画像認識のコンペティションなどが定期的に行われていますが、最近、これの変わり種として、とあるゲームのAIを作るコンペティションが開かれました。ゲームAIは近年目覚ましい成長を遂げています。例えば、囲碁の世界では人間に勝つまでになりました。そのゲームAIの中核となる技術が強化学習です。強化学習とはエージェントと呼ばれる存在が試行錯誤しながら行動を自律的に学んでいく技術になります。当然、このゲームAIのコンペティションでも強化学習を使うことが期待されていたのでしょう。チュートリア

                                                Kaggleの強化学習コンペがグダグダだった話 - Qiita
                                              • 応用から学ぶ強化学習

                                                生成AI・LLM時代における 機械学習エンジニアとしてのキャリア戦略・開発戦略 / my-career-and-development-strategies-for-ml-engineer-2024

                                                  応用から学ぶ強化学習
                                                • 変化の早い時代をエンジニアとしてサバイブする「人間力」を身につけるには 「AIを知る」「意思決定という強化学習を繰り返す」「“逆張り力”を鍛える」

                                                  AIは逆張りがあまり得意ではない 佐地良太氏(以下、佐地):まだお話ししたいところではあるんですが、最後のテーマで、その人間力ってどうやって見つけられるのかというところですね。 今井さんに「人間力ってそもそも」みたいなところも絡めてお話しいただいたと思いますが、みなさんが考える「人間力って何?」みたいなところと、「じゃあそれはどうやったら獲得できるんだっけ?」というお話を聞いていきたいんですが、林さんはいかがですか? 林要氏(以下、林):いやぁ、めちゃくちゃ深い話で。 佐地:終わらないですかね(笑)。 林:終わらないですよね。でも1つ大事なのは、ダイバーシティをどう活かすのかと、先ほどの今井さんのお話がありましたが、僕はこれはある種の逆張り力だと思うんですよね。 結局、AIはあまり逆張りが得意じゃない。なぜなら逆張りってある種のランダムになりかねないので、ランダムになった瞬間に非常に精度が

                                                    変化の早い時代をエンジニアとしてサバイブする「人間力」を身につけるには 「AIを知る」「意思決定という強化学習を繰り返す」「“逆張り力”を鍛える」
                                                  • 強化学習とは何か?「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか

                                                    人工知能(AI)技術の1つである機械学習の中には、教師あり学習や教師なし学習のほかに、「強化学習」のように「行動から学ぶ」タイプの学習も存在します。この手法は人間や動物の学習方法と似ており、実社会では非常に有用な学習方法になると考えられています。そこで、似たような仕組みを持つ「遺伝的アルゴリズム」と合わせて「強化学習」について解説します。 合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力

                                                      強化学習とは何か?「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか
                                                    • 深層学習が強化学習において果たす役割とは?『現場で使える!Python深層強化学習入門』から紹介

                                                      本記事は『現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御』から抜粋したものです。掲載にあたり、一部を編集しています。 この記事では強化学習のアルゴリズムを理解するための前段として、機械学習の概要について説明します。さらに、機械学習において強化学習が他の学習法と本質的に異なる点を明らかにしつつ、その有用性について解説します。最後の節では、深層学習が強化学習において果たす役割について考察します。 1.1 機械学習の分類 昨今の人工知能の目覚ましい発展を支えている基礎技術は、深層学習や強化学習に代表される機械学習であると言えます。本節では、機械学習を構成する3つの手法、すなわち、教師あり学習、教師なし学習、強化学習の概要について説明します。 近年、人工知能あるいはAI(Artificial Intelligence)という言葉をよく耳にします。人工知能と聞くとSF

                                                        深層学習が強化学習において果たす役割とは?『現場で使える!Python深層強化学習入門』から紹介
                                                      • 機械学習の主な手法、「教師あり学習」「教師なし学習」「強化学習」はどう違うのか

                                                        ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナー アナリストらのブログサイト「Gartner Blog Network」から、@IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。 不正検知から画像認識、自動運転車まで、機械学習(ML)と人工知能(AI)は、あらゆる産業に革命を起こそうとしている。両者の組み合わせにより、われわれがデータを扱い、活用してデジタル成長を実現する方法が変わりそうだ。 機械学習は人工知能の下位領域であり、マシンが明示的なプログラミングに従うのではなく、データ内のパターンを識別することで問題解決モデルの構築を可能にする。機械学習ではアルゴリズムがデータ内のパターンを識別し、そのパターンを使ってモデルを微調整し

                                                          機械学習の主な手法、「教師あり学習」「教師なし学習」「強化学習」はどう違うのか
                                                        • 深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita

                                                          追記:マリオの全ステージクリアを目指します!(2021/12/30) 深層強化学習で学習したAIマリオで全ステージクリアを目指すプロジェクトをGitHub Pagesで立ち上げました!参加者募集中です! 詳細は以下参照ください 深層強化学習のPyTorchチュートリアルが日本語訳されて…ない! PyTorch勉強中の人にとって助けになるのが公式のチュートリアルです。そんな公式チュートリアル @sugulu_Ogawa_ISID さんが日本語訳して公開してくださっています。 今、深層強化学習に興味津々丸なので、早速確認してみました。 すると… ない! PyTorchのチュートリアル、マリオをプレイするものあって、めっちゃ面白そうなんですよね。というわけで、訳される前のPyTorchの深層強化学習のマリオチュートリアルをやってみました。 ちなみに、PyTorchチュートリアル(日本語翻訳版)の

                                                            深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita
                                                          • GCTの学習メソッドは強化学習の常識を覆すかも知れない | やねうら王 公式サイト

                                                            昨年の将棋ソフトのオンライン大会である電竜戦で優勝したGCT。最近、floodgate(コンピュータ将棋のオンライン対局場)にgcttest_x6_RTX2080tiという強いソフトが登場した。これはそのGCTの開発者である加納さんが放流されている評価関数の育成中のGCTである。このソフトが2080TiというGPUの性能からすると強すぎるので、2080Tiの6枚刺しではないか、シングル(1枚刺し)だろという議論(罵り合い?)がなんとかちゃんねるでさかんに行われている。 429 名無し名人 (ワッチョイ a301-xfeT)2021/04/06(火) 13:32:52.91ID:1YM8Ydqj0 加納さんのツイートを見たけど、どこにもgcttest_x6_RTX2080tiが2080Tiシングルっていう ツイートは見当たらないよ。 前に序盤定跡を少しだけ使用してレート4100くらいのgct

                                                            • 強化学習手法の分類と簡易的内容 - Qiita

                                                              と再帰的に計算できます. 価値関数 V(s) ある状態 $s$ からスタートしたときのリターン $C$ の期待値を価値関数 $V(s)$と呼びます.例えば,時刻$t=0$での状態 $S_0$ を $s$ としたとき,$V(s) = \mathbb{E}[C_0|S_0=s]$と表現されます. 効用関数 q(s,a) 価値関数 $V$ は状態 $s$ の関数($V(s)$)でしたが,更に行動も含む関数として,効用関数$q(s,a)$が存在します.同じ状態$s$に対して,$q$が大きくなるような$a$がより良い行動であるということになります. 行動価値関数 Q(s,a) リターンを用いた効用関数として,行動価値関数(Q関数)があります.時刻$t=0$からのリターンを用いると,$Q(s,a) = \mathbb{E}[C_0|S_0=s,A_0 = a]$として表されます. 方策モデル 方策をど

                                                                強化学習手法の分類と簡易的内容 - Qiita
                                                              • ITエンジニアのための強化学習理論入門

                                                                2020年7月17日紙版発売 2020年7月17日電子版発売 中井悦司 著 A5判/296ページ 定価3,278円(本体2,980円+税10%) ISBN 978-4-297-11515-9 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 前作の『ITエンジニアのための機械学習理論入門』から,5年経過しましたが,AI(人工知能)や機械学習に対しての期待と関心はまったく衰えません。むしろ機械学習の利用はIT業界で当然のものとなり,さらなる活用がさまざまな場所で行われています。前作では一般的な機械学習について解説しましたが,試行錯誤しながら1つの解をもとめていく「強化学

                                                                  ITエンジニアのための強化学習理論入門
                                                                • 初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」 - Seitaro Shinagawaの雑記帳

                                                                  こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 17日目の記事です。 今回は以前献本いただいた「深層強化学習入門」についてご紹介したいと思います。 www.kyoritsu-pub.co.jp 噂の深層強化学習本を頂いたので拝読しました!概論として基礎知識や問題設定、課題感がギュッとコンパクトにまとまってました。特に7章以降は学習させるための工夫とか実験の作法だとか重要な点がさらっと詰め込まれてて勉強になりました。分厚い本と組合せて行ったり来たり読み進めると良さそうです pic.twitter.com/3nIEoQmGkE— Seitaro Shinagawa (@sei_shinagawa) 2021年4月14日 オレンジと黒白の装丁がカッコよくて素晴らしいです。 目次 前置き 本題:「深層強化学習入門」は誰向けの本? 前置き 強化学習は様々な分野で用い

                                                                    初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」 - Seitaro Shinagawaの雑記帳
                                                                  • 強化学習と深層学習を組み合わせると何ができるのか?『現場で使える!Python深層強化学習入門』発売

                                                                    Alpha Go(アルファ碁)でも利用されている深層強化学習。AIサービスのみならずロボティクス分野でもその応用が期待されています。AI開発に携わる第一線の著者陣が深層強化学習の開発手法について書き下ろした『現場で使える!Python深層強化学習入門』が8月7日に発売となりました。 『現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御』は、Alpha Goにも利用されている深層強化学習を、この分野の初学者向けに解説した入門書です。 「はじめに」より 2016年、Google DeepMindによるAlphaGoが囲碁でプロ棋士を打破したというニュースは、衝撃とともに世界中に拡がりました。その打ち手のパターン数が膨大であることから、人間には遠く及ばないだろうと考えられていた囲碁ゲームにおいても、機械学習ベースの人工知能が人間を凌駕し得ることを示した事件でした。この

                                                                      強化学習と深層学習を組み合わせると何ができるのか?『現場で使える!Python深層強化学習入門』発売
                                                                    • 第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編)

                                                                      第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編):AWS DeepRacer入門(1/3 ページ) 強化学習が初めての人に最適な「AWS DeepRacerのコンソールとシミュレーション環境」を使って、ディープラーニングを体験してみよう。コンソール上で強化学習の各ハイパーパラメーターを設定してモデルに学習させ、さらに評価し、バーチャルレースにデプロイするまでの手順を解説する。 連載目次 AWS DeepRacerは、自律走行を行うロボットカーである(第1回詳しく説明した)。その走行エンジンの作成には、ディープラーニングの「強化学習」と呼ばれる手法が用いられる(第2回詳しく説明した)。強化学習による「学習」や「評価」は、シミュレーション環境(=シミュレーター)上で行えるようになっており、車の走り方、つまり強化学習のハイパーパラメーター(=学習を調整する

                                                                        第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編)
                                                                      • 強化学習「理論」入門

                                                                        2022年度 TopSE「機械学習概論」コースの一部として使用した講義資料です。 https://www.topse.jp/ja/curriculum-lectures.html

                                                                          強化学習「理論」入門
                                                                        • 第1回 強化学習が楽しく学べる自律走行レーシングカー「AWS DeepRacer」とは?

                                                                          連載目次 AWS DeepRacerを知っているだろうか? カンファレンス「AWS re:Invent 2018」(2018年11月25日開催)の基調講演で発表されてから注目を集め(動画1)、2019年5月23日開催の「AWS Summit Tokyo 2019」で日本でもお披露目された。 DeepRacerは、自律走行を行うレーシングカーで、その走行エンジンに機械学習モデル(より厳密には、ディープラーニングの深層強化学習と呼ばれる手法)が用いられる。その機械学習モデルは、独自のアルゴリズム(厳密には、強化学習の報酬関数など)を手動で定義したうえで、AWS上で学習&評価して、最終的に独自のモデルに作り上げる仕組みとなっている。 作り上げたモデルは、コンピュータ上のバーチャルレースや、現実での実機レースでの走行エンジンとして利用できる。走行タイムを他の人と競い合えるので、世界で一番優れた機械

                                                                            第1回 強化学習が楽しく学べる自律走行レーシングカー「AWS DeepRacer」とは?
                                                                          • MATLAB および Simulink による強化学習

                                                                            最近のニュースで、強化学習のアルゴリズムがどのようにして囲碁、Dota 2、Starcraft 2 などのゲームでプロを破ったかが取り上げられました。強化学習は、機械学習の一種であり、ビデオゲームからロボット工学、自動運転車のような複雑な用途における人工知能の使用を可能にします。 プロジェクトで強化学習の技術を活用することに興味があっても、これまで一度も使ったことがないとしたら、何から始めたらいいでしょうか。 この ebook は、MATLAB® および Simulink® で強化学習を始められるように、用語を解説し、例やチュートリアル、評価版ソフトウェアをご紹介します ebook をダウンロードすると、以下の内容を学習することができます。 セクション 1: 基礎の理解と環境の設定 強化学習の基礎と、従来の制御設計との類似点や相違点を学びます。教師あり学習、教師なし学習、強化学習の間の相違

                                                                              MATLAB および Simulink による強化学習
                                                                            • ゲーム攻略だけではない 深層強化学習を使ってビルの揺れを抑えるAI技術の可能性

                                                                              いまやAIといえば、ディープラーニング(深層学習)に代表される機械学習のことを指す。猫の画像を見分けたり、文章の意図を分析したりと応用分野は幅広いが、これらは与えられたデータを元に、分類し、予測する活用法だ。 もう一つのディープラーニングの応用例が、深層強化学習と呼ばれるもの。ある問題を、コンピュータ自身に試行錯誤させ、数式では解けなかった問題の最適解を導き出す。有名な例としては、Google傘下の英DeepMindが開発したAlphaGoがある。囲碁のルールをもとに、自分自身との対決を重ねることで最適な打ち方を学び、人間が見つけることのできなかった戦略を編み出した。 この深層強化学習を使い、ビルの揺れを制御する仕組みが開発された。AIソリューションの開発を行うLaboro.AI(東京都中央区)は、大林組と共同で建設物の振動を制御するAI開発を実施。実際の建造物での実験で、従来の振動制御を

                                                                                ゲーム攻略だけではない 深層強化学習を使ってビルの揺れを抑えるAI技術の可能性
                                                                              • 「アフォーダンス」理論で強化学習を効率化、ディープマインド

                                                                                ディープマインドの研究者が、アフォーダンス理論を利用して強化学習を効率化する手法を開発している。同理論を用いれば、試行錯誤を繰り返さなくても、実行不可能な選択肢をあらかじめ除外できるという考えだ。 by Karen Hao2020.07.26 62 61 9 10 私たちは椅子を見たら、その形状や色に関係なく、座ることができると知っている。魚は水の中なら場所に関係なく泳げると知っている。これはアフォーダンス理論と呼ばれる。心理学者ジェームズ・J・ギブソンによる造語だ。知的な存在が世界を見るとき、彼らは単に物体とその関係性だけでなく、その可能性にも気づくとする理論である。つまり、椅子は座る可能性を「アフォードする」(与える)。水は泳ぐ可能性を与える。アフォーダンス理論により、動物の知性の一般化が可能である理由の一部を説明できる。私たちがたいていの場合に、新しい物体との関わり方をすぐに理解でき

                                                                                  「アフォーダンス」理論で強化学習を効率化、ディープマインド
                                                                                • “深層学習”ではなく“深層強化学習”が決め手 将棋界最強のAlphaZeroと互角の強さ「dlshogi」の秘密

                                                                                  特徴量を入れて効率的に学習をさせる 川島馨氏(以下、川島):私が作っているdlshogiの特徴を説明します。dlshogiでは私個人が趣味でやっていて、Googleみたいな計算資源が大量にあるわけじゃないので、どうやって効率的に学習するかをいろいろ考えて、少し工夫をしています。 主な工夫点は、先ほど盤面の画像を用いるという話があったんですが、そこにもう少し将棋で有効な特徴量を入れています。駒の配置以外にも駒の利きの情報や王手の情報を入れることで、もっと効率的に学習するようにしています。 先ほど少し言ったとおり、やっぱり終盤が少し弱いので、そこをどうやって克服するかを考えて工夫しています。モンテカルロ木探索の中で、終端で“詰め”の探索をしたり、長手数の詰めの探索はdf-pnという別のアルゴリズムで行なったりしています。 強化学習をするときも“詰み”の探索をして、詰みが見つかったらそれを勝ちと

                                                                                    “深層学習”ではなく“深層強化学習”が決め手 将棋界最強のAlphaZeroと互角の強さ「dlshogi」の秘密