[B! 機械学習][rl] sh19910711のブックマーク

カードゲームの強化学習 - Qiita

はじめによく知られる碁の強化学習は「Alpha Go」があり、将棋やチェスにも対応した強化学習は「AlphaZero」とか「MuZero」がある。オセロAIもDeepLearning的立ち位置からやられる事がある。（評価関数的AIの場合もある）ポーカー（テキサスホールデム）の強化学習は「Pluribus」、麻雀の強化学習は「Suphx」がある。一方、コンピュータゲームではAtari(70,80年代のビデオゲーム機)のゲームをやるモデルに「Agent57」、「MuZero」、「R2D2」等がある。また、マリオの強化学習としてDQNのチュートリアルコードがあり、比較的よくやられている。その他、強化学習がやられるゲームとしては動画からの学習の題材としてMinecraft、starcraft2の「AlphaStar」などがあるらしい。しかし、TCG（トレーディングカードゲーム）の強化学習

sh19910711 2024/05/13

"マリオだと入力データが(4,84,84)なのでstrideで画像サイズを減らして演算量を減らすメリットがある / 6種類のカードから成る簡単な環境であればDQN学習でもカードゲームのプレイが出来ているように見える" 2023

リンク

感想「深層強化学習による東方AI」 – @knok blog

能登さんが発行された技術系同人誌、「深層強化学習による東方AI」のダウンロード版を入手したので読みました。BoothとGumroadで販売されているおり、特に理由はありませんがGumroadで購入しました。第13回博麗神社例大祭で頒布した『深層強化学習による東方AI』のダウンロード版をBooth https://t.co/ZysBlu7LY4 およびGumroad https://t.co/HtgRa44sr6 にて販売しています． pic.twitter.com/7rDT2qG9uq — 何もわからん (@ntddk) 2016年5月8日東方紺珠伝というシューティングゲームを、深層機械学習によってクリアさせようというものです。この種の話でまず思い浮かぶのが、八重樫さんによるvArashiです。Linux Conference 2002にて発表された資料(PDF)もあります。今にな

sh19910711 2024/05/09

"大昔のログインで実際にシューティングプレイヤーへアイトラッキングデバイスを装着させた記事があった / 不慣れなプレイヤーは主に自機を中心に見ているが、上級プレイヤーは自機の少し先を見ている傾向" 2016

リンク

【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita

【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみたUnity強化学習ReinforcementLearningML-Agents はじめに Atari 2600 Gamesの攻略を発端として有名となった強化学習ですが，ここ数年でプレイヤーが複数人いるゲームのための強化学習の研究も盛んに行われています．Self-Play Reinforcement Learning (Self-Play RL) はマルチプレイのゲームの学習にしばしば用いられる学習方法であり，囲碁やDota 2のAI開発に使われたことで注目を浴びました．今回は，Unityによる自作の対戦ゲームのAIをSelf-Play RLによって作成してみようと思います． Self-Play RLはエージェント (プレイヤ) が複数人いるゲームの戦略を学習

sh19910711 2024/05/06

"Self-Play RL: 自身の戦略のコピーを作成し，それを相手として学習をすすめる / Firoiu: 大乱闘スマッシュブラザーズDXにおいてトップランカーに匹敵" arXiv:1702.06230 2019

リンク

TensorFlowでDQN －箱庭の人工知能虫ー - Qiita

ChainerでやってみるDeep Q Learning - 立ち上げ編で、見た目まさに人工知能っぽいことをやっていたので真似てやってみることに。とはいえwxPythonとか使ったことないし、そのまんま真似ると難しそうなので、より簡単な感じにしました。まぁ遊びですし。毎度おなじみ、あまり専門的なことは良く分からず雰囲気で書いているので、大幅に勘違いしている箇所があるかもしれません。気になった点は指摘いただけると幸いです。目標箱の中にリンゴ（に見立てた点）を多数配置。そこに人工知能的虫を配置。虫は上下左右および移動しないことを選択できる。リンゴを食べる事が報酬。設計概要基本的には前回作ったものをベースに考える。動きまわることで報酬を得て行く過程をディープラーニングで実装する。ビジュアル的な表示が必要なので、wxPythonより簡単に使えそうなmatplotlibを使って

sh19910711 2024/05/02

"動きまわることで報酬を得て行く過程をディープラーニングで実装する / 箱の中にリンゴ（に見立てた点）を多数配置 + 上下左右および移動しないことを選択 + リンゴを食べる事が報酬" 2016

リンク

ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq

注：今回の記事は完全にプログラマ向けの解説記事ですソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲーム AI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。本稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します（上述のgithubのコードを見ながら読まれることをオススメします）。【本稿で扱うゲームのルール】本稿ではニューラルネットで動く競りゲームのAIを作ります。競りゲームとは・初期所持金１０のプレイヤ

sh19910711 2024/04/29

"教師データ: ランダムムーブの対局 + 勝った方の手を良い手としてその手の採択率を上げる / 記事は沢山あるのですが、その多くはgymなどの洗練されすぎたパッケージを使っていて" 2017

リンク

ML-Agentsで模倣学習（GAIL）を取り入れた強化学習を行う - Qiita

要約コンセプト：報酬がスパースな環境だとエージェントが報酬に辿り着けず、学習が進まない・・ので模倣学習で人間が手本を見せる UnityのML-Agentsで強化学習＋模倣学習（GAIL）をする手順の紹介はじめに Unityでは、ML-Agentsというライブラリを使うことで機械学習を行うことができます。ML-Agentsは特に強化学習（Reinforcement learning）を容易に行うことが可能であり、Unityエディタ上で容易に環境を構築、スクリプトで報酬の設定等を行うこともできます。ですが、ゲームにおいて強化学習でうまく挙動を学習させることが難しい場合があります。強化学習とその課題強化学習は、エージェントの一連の行動の結果として報酬を与えることで学習が進行します。しかし、報酬がスパースな（少ない）環境では、エージェントが報酬となる行動に辿り着くことが難しいため、エージ

sh19910711 2024/04/28

"人間が報酬にたどり着くような行動を模倣学習でエージェントに学習させる / ML-Agentsでは現在BCとGAILの2種類の模倣学習をサポート / GAIL: デモンストレーションの数が少ない場合でも効果的 + 事前学習が可能" 2019

リンク

【強化学習】【基本編】1.MDPとベルマン方程式 - Qiita

強化学習が大好きなので記事を書いてみることにしました。お手やわやわにお願いします。目次 0.はじめに 1.強化学習の問題設定 2.マルコフ決定過程 3.ベルマン方程式 4.おわりに 0.はじめにこんにちは、強化学習大好きマンのかんといいます。強化学習を勉強する上で一番辛いのは、数学的なややこしさだと個人的に思っていて特に序盤で詰まって諦めることが多いのかなと思います。実際自分がそうで、序盤の意味がわからなさすぎて半年くらい放置してました。強化学習は数学がとても難しいと言われていて、自分も式の意味レベルくらいの理解で厳密な数学的理解はできていないところもあります。それでも強化学習は本当に面白い分野だと思っているので布教したくて記事を書こうと思いました。できるだけ具体例をまじえて勉強中の人はもちろん強化学習について何も知らないという人でもわかるよう書くつもりです。間違いやもっとわか

sh19910711 2024/04/26

"マルコフ性: 行動を決定する際、考慮するのは今いる状態sのみ + 経験してきた状態やしてきた行動は考慮しない / 方策がπ(a|s)と書かれている通り今いる状態sしか考慮していません" 2021

リンク

ICML'17における強化学習 - sotetsuk's tech blog

この記事は2017年に書きかけのままだったブログ記事の供養です。今2018年年始なので、NIPS参加報告も目立つ中、4ヶ月遅れくらいですが書きかけだったICML2017の参加録をひとまず投稿しておきます。ホットトピックモデルベース深層強化学習ソフト最適階層性（オプション）（報酬情報なしでの）系統立った探索一貫学習 (end-to-end learning) 学習時と異なる環境への汎化（transfer/zero-shot）実用的な探索（安全・公平）ヒトによる教示方策オフ型学習でのバイアス・バリアンス個人的に面白かった発表・トピック5選チュートリアルソフト最適カテゴリカルDQN ベータ方策 PVFによるオプションの発見総括 [PR] 速習強化学習 8月上旬にシドニーで行われたICML2017に参加してきました私自身は自然言語生成のワークショップで発表をしてき

sh19910711 2024/04/25

"モデルフリー: DQNやA3C + 環境のモデルをブラックボックス的に扱う / 強化学習の文脈では、より階層が上の方策（のようなもの）をオプションと呼ぶことがあり / 探索のアプローチは「不確かなときは楽観的に」の原則" 2018

リンク

強化学習 keras-rl2からstable-baselins3への乗り換え - Qiita

はじめに久々にkeras-rl2を使用して強化学習を行ったのですが昔作成したプログラムが動かなくなっていました。tensorflowのバージョンアップが原因のようです。とりあえず動くようには修正したのですが、keras-rl2は2年くらいメンテナンスされておらず、これを機にstable baselinesに移行することにしました。私の環境は下記のとおりです。 macOS: 14.0（23A344） Python: 3.11.5 gym: 0.26.2 tensorflow: 2.14.0 keras: 2.14.0 keras-rl2: 1.0.5 1. 確認のために使用したプログラム下記で使用した拙作のプログラムを使用します。少し変更しているので再掲します。環境 import time import numpy as np import gym class MovingEnv(g

sh19910711 2024/04/21

"keras-rl2: 2年くらいメンテナンスされておらず、これを機にstable baselinesに移行 / 使用しているフレームワークを変更するのは勇気がいる / stable-baselines3: トレーニング時間がkeras-rl2よりだいぶ短い" 2023

リンク

Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習｜npaka

「AI・人工知能EXPO 2020 【秋】」の「ギリア」ブースにて、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習を展示しました。 Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論を行い、ロボットアームの操作して、ホッケーロボットの対戦を実現させています。今回は、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習の作成の流れを紹介します。【ステップ1】ロボットアームとホッケー台の選定はじめに、ロボットアームをいろいろ試してみて、KHRシリーズで有名な近藤科学の「KXR-A5」を選びましました。ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円という値段の安さが決め手になりました。

sh19910711 2024/04/21

"Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論 / KXR-A5: ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円 / 模倣学習: 「人間の操作ログ」に近いほど報酬を与える" 2021

リンク

強化学習：簡単な例で状態価値関数の値を求める - IT研究メモ

流行りに便乗して、機械学習やAIの勉強を始めてみました。なかでも、強化学習は、伝統的なAIの世界（プランニング等々）と機械学習の融合のようで面白くいろいろと探求のしがいがありそうです。とりかかりとしてこの本を読み始めています。強くなるロボティック・ゲームプレイヤーの作り方プレミアムブックス版 ~実践で学ぶ強化学習~ 作者: 八谷大岳,杉山将出版社/メーカー: マイナビ出版発売日: 2016/06/30メディア: 単行本この商品を含むブログ (2件) を見る 2008年の本なのでDQNなどはでていませんが、歴史的背景（「最適制御理論」最適化の観点から制御というものを考える、等々）から、基本的な技法の定式や実装イメージ（擬似コード的なものがある）まで網羅的に丁寧に記述されていて、大変勉強になります。ただ読んでいるだけだとあまりわかった気になれないので、ところどころで具体的に値を計算して

sh19910711 2024/04/20

"ゲームプレイヤーの作り方: 2008年の本なのでDQNなどはでていませんが、歴史的背景から、基本的な技法の定式や実装イメージまで網羅 / 割引: 遠い将来に得られる報酬は、直近に得られる報酬より価値が低い" 2016

リンク

[論文解説] MAML: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks - Qiita

[論文解説] MAML: Model-Agnostic Meta-Learning for Fast Adaptation of Deep NetworksMeta-Learning 以下の論文の解説(まとめ)になります． Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks この論文は，Chelsea Finnが出した論文でICML 2017に採択されています．Meta-Learningの汎用性を大きく改善した，ターニングポイントとなる手法を提案していて非常に面白く，また論文の優位性を適切に説明した日本語解説がなかったため，今回紹介させていただきました．この論文で提案しているモデルは，MAML(Model-Agnostic Meta-Learning)と呼ばれる手法になります．記事中の図は，特に記載がない限り

sh19910711 2024/04/18

"Meta-Learning: 様々なタスクで学習することで未知のタスクにも少しのデータ・学習ステップで適応できるようなモデルを見つける / MAML: 微分可能である以外，モデルや損失関数の形式を仮定しない" arXiv:1703.03400 2019

リンク

最適制御と強化学習のつながりを理解する - Qiita

はじめに近年の深層学習のブームに乗っかる形で、DQNに代表されるような深層強化学習手法が話題になっています。下の、DQN（もしくはAtariをプレイするAIの映像）などを見て、強化学習すごそう！なんか面白そう！と思って勉強を始めた方も多いのではないでしょうか？ちなみに、自分もその一人であることに間違い有りません。しかし、強化学習の反対側に制御工学の理論が見えることは実はあまり知られていなかったり、制御工学を勉強していても、強化学習が制御工学と関係があると知らなかったりすることがあると思います。もし、そのつながりを知り、両者の違い、良さをそれぞれ知れれば、今まで見てきたものがもっと広い視野で見えるようになることは間違い有りません。そこで、このQiita制御工学アドベントカレンダー2019 22日目の投稿は、制御工学の分野の１手法である最適制御と強化学習のつながりを解説します。本

sh19910711 2024/04/18

"制御工学を勉強していても、強化学習が制御工学と関係があると知らなかったり / 両者の違い良さをそれぞれ知れれば ~ もっと広い視野で見え / 強化学習はモデルが未知という状態からデータを得ることで方策を決定" 2019

リンク

第4回今更だけど基礎から強化学習を勉強する連続行動空間編 - Qiita

今までは行動空間(アクション)は離散値を扱っていましたが、今回は連続値を扱いたいと思います。第3回　価値推定編(TD法、モンテカルロ法、GAE) 第5回　TRPO編(IS、KL距離、ヘシアン、共役勾配法) ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。 ※2021/5/15 分散に関して大きな間違いがあったのでそれに関する内容を最後に追記していますコード全体本記事で作成したコードは以下です。 Google Colaboratory 2021/5/15 修正後のGoogle Colaboratory 環境(MyCartpole) Cartpole-v0を使いますが今回は連続行動空間を扱いため少し手を加えます。本当はPendulum-v0を使いたかったのですが学習難易

sh19910711 2024/04/18

"本当はPendulum-v0を使いたかったのですが学習難易度が高く、もう少し難易度を下げた環境を用意 / 最初にはまったのですが、確率と確率密度は違うものです + 確率密度は1以上の値を取ります" 2021

リンク

今さら聞けない強化学習（1）：状態価値関数とBellman方程式 - Qiita

はじめに強化学習に対する参考書を読み進めて、深層強化学習のコードをgithubで落として一部改変して使ったりしています。しかし、肝心の理論に関するところが追いついていけません。思うに、参考書を進めるうちになんとなくわかった気になったり、飛ばしたりするうちに不理解が蓄積していっているんだと思います。そのため、強化学習の基礎の基礎から、もう少し整理する必要があると思いました。シリーズものにして少しずつまとめていけたらと思います。間違いや不明瞭なところなどありましたらどんどんご指摘いただけるとありがたいです。参考書籍 Richard S. Sutton and Andrew G. Batro 著「強化学習」第1版三上貞芳・皆川雅章訳、森北出版株式会社現状価値関数、方策、価値最適化、方策評価、Q関数など、なんとなくわかっているが、やはりなんとなくしかわかっていない。。今回やったこと

sh19910711 2024/04/18

"ある時刻における価値関数はその先の時刻における価値関数の漸化式 / Bellman方程式: 直近の報酬に1ステップ先の価値関数を足したもの + 方策および遷移確率で未来のとりうる値は枝分かれするのでその期待値をとる" 2018

リンク

【強化学習】DreamerV3を解説・実装 - Qiita

この記事は自作している強化学習フレームワークの解説記事です。前：Dreamer2 DreamerV3の概要 DreamerV3は、極めて難しいタスクとして知られる Minecraft のダイヤモンド収集タスクを初めてゼロから解いたアルゴリズムとして話題になりました。論文での内容としては大きく以下となります。出来るだけパラメータを固定し幅広い環境で好成績を収めた Minecraftのダイヤモンド収集タスクが実行可能な初めてのアルゴリズムモデルが大きいほど性能が良くなる事実を発見した参考・Mastering Diverse Domains through World Models(論文) ・コード(github) ・Minecraftでダイヤモンド初収集！世界モデル最新手法 DreamerV3 を解説【無料記事】さまざまな環境への適応とMinecraftのタスク以下の図は様々な

sh19910711 2024/04/17

"DreamerV3: Minecraftのダイヤモンド収集タスクが実行可能 / V2では1エピソードにDummyステップを挿入して同じ長さにし、バッチ長毎に学習 / V3ではエピソードをまたいでバッチを作成 + 区切りではRNNの隠れ状態を初期化"

リンク

【Unreal Engine】強化学習を行う方法を調べてみた - Qiita

目次 1. Unreal Engine上で強化学習を行いたい理由 2. 各種手法の比較 2-1. 内部実行系の手法以下の４つの方法について紹介します。・Python Editor Script Plugin ・UneralEnginePython ・Python Foundation Packages ・Neural Network Inference 2-2. 外部通信系の手法以下の４つの方法について紹介します。・Mind maker ・UE4ML ・ML Adapter ・Learning Agent 3. 結局何を使えばいいのか ※記事中のUEはUnreal Engineの略です。 1. Unreal Engine上で強化学習を行いたい理由強化学習は、機械学習の一分野であり、エージェントが環境と相互作用しながら、試行錯誤を通じて最適な行動を学習する手法です。ゲームエンジンと

sh19910711 2024/04/17

"Python Editor Script Plugin: UE5から標準で搭載 + Pythonをゲーム内ターミナル，テキストファイル，BluePrintから実行 / MindMaker: UE上で取得したObservationsとRewardの値を外部の実行ファイル(.EXE)へ送信し，そこからActionを受け取る" 2023

リンク

物理エンジンMuJoCoと強化学習: アリ型ロボットの学習に挑戦しよう！ - Qiita

と実行すると、イメージの作成 & コンテナが起動します。 http://localhost:8888/lab に jupyterlab が起動しているので、以降は下の画面のような jupyterlab から操作します。（./work ディレクトリに入ったファイルを jupyterlab から使用できるようにしています。） 2.2. 強化学習アルゴリズム SAC について今回使用する MuJoCo 環境のモデルは，行動が連続的な値を取る連続値制御タスクになります。このような連続時間のタスクは、DQNといった離散値用のアルゴリズムで解くのは不向きであるため、今回は連続値制御タスク向け強化学習アルゴリズム SAC (Soft Actor-Critic) を使用します。 SACの特徴は以下の通りです。 Off-policy 学習 Off-policy学習とは、現在のポリシーとは異なるポリシー

sh19910711 2024/04/11

"MuJoCo; Multi-Joint Dynamics with Contact: 2021年10月にDeepMindに買収され、2022年にオープンソースに / 行動が連続的な値を取る連続値制御タスク / DQNといった離散値用のアルゴリズムで解くのは不向き" 2023

リンク

DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ

DeepMindのDQNからR2D2くらいまでの深層強化学習（Q学習）の発展の歴史を、簡単な解説とtensorflow2での実装例と共に紹介していきます。まずは深層強化学習の新たな時代を切り開いたDeepMindのDQN（2013）です。論文からはわかりにくいatari環境向けの実装上のテクニックとDQNを構成する各要素が後継手法でどのように改良されていったかのレビューに焦点を置いてBreakout（ブロック崩し）向けにtensorflow2での実装例を紹介します。 DQNシリーズ DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ DQNの進化史 ②Double-DQN, Dueling-network, Noisy-network - どこから見てもメンダコ DQNの進化史 ③優先度付き経験再生, Multi-step learning, C51 - どこから見て

sh19910711 2024/04/11

"DQN: 初学者が必ず学ぶことになる手法であるにも関わらず再現実装難易度がそこそこ高い + 論文を読むだけでは分かりづらい実装上の細かいテクニックが多く存在する" 2021

リンク

突撃KDD2018🎤！〜強化学習ハンズオンとKDD Cupを中心に〜 - Qiita

この記事は，ドコモSI部アドベントカレンダー10日目の記事になります。今回の記事では今年の夏に出張したKDD2018について，特に強化学習ハンズオンとKDD Cupを中心に書いていきたいと思います。 ※下記リンクから飛べば記事のつまみ食いができます🍔 - 強化学習ハンズオン - KDD Cup Workshopまとめ概要 KDDは今年で24回目を数える，データマイニング関連の学術会議です。今年は8/19〜8/23の期間で，イギリスのロンドンで開催されました。参加者，採択論文数ともに過去最大となり，一層の盛り上がりを見せています。会議は特定の分野の基本事項から最先端研究までを概観するチュートリアル，各分野の最先端な研究発表が行われる本会議，参加者が手を動かしながら基本事項を学ぶハンズオンから構成されています。またイベントとして，特に深層学習分野での各種基調講演が行われるDeep

sh19910711 2024/04/03

"ray: pythonで利用可能な分散処理を行うためのライブラリ + その中のRLlibは，先ほどのDQNの他にもPPO, A2Cなどの強化学習アルゴリズムが実装 / それらの学習を分散処理させながら実行できます" 2018

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

機械学習とrlに関するsh19910711のブックマーク (30)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス