[B! DQN] tsu-neraのブックマーク

tsu-nera id:tsu-nera

DQNに関するtsu-neraのブックマーク (25)

Deep Q-LearningでFXしてみた
立教大学で話したセミナーの内容です。Deep Q-Learningについての説明と、それを応用して「FXで勝つ」Agentの構築について話しました。簡単な結果も出たので、それについの簡単な考察もしています。
tsu-nera 2017/07/11
強化学習

DQN

FX
リンク
深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉
Photo via Visual Hunt 少し前のことですが、Alpha Goという囲碁の人工知能プログラムがイ・セドル九段に勝利したことで話題になりました。*1 また、一部のゲームにおいて「DQN（Deep Q-network）」が人間よりも上手くプレイするようになったというニュースも話題になっていましたね。*2 今回はこれらの事例で使われている「深層強化学習」という仕組みを使って、FXのシステムトレードができないかと思い、調べてみました。注意：強化学習もFXも勉強し始めたばかりなので、色々間違っている箇所があるかもしれません。ご指摘いただけると幸いです。今回の内容 1.強化学習について 1-1.強化学習 1-2.Reinforcement Learning: An Introduction (2nd Edition) 1-3.UCL Course on RL 1-4.強化学習につい
tsu-nera 2017/07/11
DQN

FX

強化学習
リンク
Let’s make a DQN: Theory
tsu-nera 2017/07/06
DQN

強化学習

cartpole
リンク
Let’s make a DQN: Implementation
tsu-nera 2017/07/06
DQN

強化学習

cartpole
リンク
Deep Reinforcement Learning
tsu-nera 2017/07/06
強化学習

DQN
リンク
Deep Q-Network　論文輪読会
Deep-Q Networkに関するNatureの論文"Human-level control through deep reinforcement learning"を社内論文輪読会で読みました
tsu-nera 2017/07/06
DQN

強化学習
リンク
DQNをKerasとTensorFlowとOpenAI Gymで実装する
はじめに少し時代遅れかもしれませんが、強化学習の手法のひとつであるDQNをDeepMindの論文Mnih et al., 2015, Human-level control through deep reinforcement learningを参考にしながら、KerasとTensorFlowとOpenAI Gymを使って実装します。前半では軽くDQNのおさらいをしますが、少しの強化学習の知識を持っていることを前提にしています。すでにいくつか良記事が出ているので紹介したいと思います。合わせて読むと理解の助けになると思うので、是非参考にしてみてください。 DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた DQNが生まれた背景について説明してくれています。Chainerでの実装もあるそうです。ゼロからDeepまで学ぶ強化学習タイトルの通り、ゼロからDeepま
tsu-nera 2017/07/06
DQN

強化学習
リンク
DQNで自作迷路を解く - Qiita
Deep Q Network（いわゆるDQN）で自作の迷路を解いてみました。プログラムはこちらにあります。 https://github.com/shibuiwilliam/maze_solver 概要 DQNは強化学習の一種で、最適な戦略選択にニューラルネットワークを使っているものになります。強化学習やニューラルネットワークの説明は以下が参考になります。強化学習ゼロからDeepまで学ぶ強化学習 - Qiita ニューラルネットワーク TensorFlowのチュートリアルを通して、人工知能の原理について学習する - Qiita 強化学習はゲームやロボット制御で使われている技術なのですが、状況（State）に対してプレイヤー（エージェントとも）が行動（Action）を起こすことで、状況の変化とその行動への報酬（reward）を得るモデルです。状況に対する行動を繰り返すことプレイヤー
tsu-nera 2017/07/06
強化学習

dqn
リンク
AI Frameworks
Get performance gains ranging up to 10x to 100x for popular deep learning and machine learning frameworks through drop-in Intel® optimizations. AI frameworks provide data scientists, AI developers, and researchers the building blocks to architect, train, validate, and deploy models through a high-level programming interface. All major frameworks for deep learning and classical machine learning hav
tsu-nera 2017/07/05
DQN

強化学習
リンク
Deep Q Network (DQN) - DeepLearningを勉強する人
http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html [1312.5602] Playing Atari with Deep Reinforcement Learning Q-Learningにおいて、action-value functionをDNNで関数近似したもので、Deep RLの皮切りとなった. Q-Learningとはなんだったか？自分用の強化学習メモからの復習的ななにか. Model-free、Off-Policy、Value-basedなControl target policy : greedy behavior policy : -greedy (TD-TargetにはサンプリングしたBellman Optimality Equation) パラメータで関数近似した場合、論文まとめ
tsu-nera 2017/07/05
DQN

強化学習
リンク
最近のDQN
論文紹介：Dueling network architectures for deep reinforcement learningKazuki Adachi
tsu-nera 2017/07/05
DQN

強化学習
リンク
Home - Ike-ON
Unlock Your Potential: Top 10 Reasons to Learn Python Python is one of the most popular programming languages in the world. As techno logy advances and more companies use Python … Read More C# course from scratch for beginners If you have only a general idea of what programming is and have never been professionally engaged in it, we recommend that you start learning from the very basics. Read More
tsu-nera 2017/07/05
keras

DQN

OpenAI

強化学習
リンク
DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた - Qiita
はじめにそもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました公開しました。またどうせ公開するなら、この機会にこれ（Q学習+関数近似）関連で持っている知識をついでに整理しようと思ってまとめました。ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー！！！って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。（ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。）この記事ではNIPSとNatureの以下の２本の論文・ V
tsu-nera 2017/07/02
DQN

強化学習
リンク
ライントレーサーをDeep Q Learningで教育する - Chainer - Qiita
みなさんライントレーサーってご存知ですか？メカトロの入門として遊んだ方もいくらかいるのではないでしょうか。今回はChainerでやってみるDeep Q Learning - 立ち上げ編に引き続き、基礎体力づくりとしてライントレーサーにDQNで校庭を走らせることにしました。 GitHubにも置きました。良いパラメータやモデル、アルゴリズムなど見つけたら教えてください。 GitHub : DeepQNetworkTest/DQN003.py プログラムの雰囲気ライントレーサーは前記Youtubeのロボと同様に光センサ1個の情報で動きます。走行はmobile robot風に左輪と右輪の速度差などで向きを変えたり前進したりする仕様。慣性はない。線の太さはグラフィックとして書かれている1pxを中心に幅10pxです。緑色そっけないルールベースライントレーサー # 線が見えていると
tsu-nera 2017/06/21
DQN

etロボコン
リンク
Deep Reinforcement Learning
2nd Multidisciplinary Conference on Reinforcement Learning and Decision Making (RLDM), Edmonton 2015 author: David Silver, Department of Computer Science, University College London published: July 28, 2015, recorded: June 2015, views: 122681
tsu-nera 2017/06/16
強化学習

Deep learning

DQN
リンク
Deep Q-Learning with Neural Networks (on Cart-Pole)
tsu-nera 2017/06/15
OpenAI

keras

DQN
リンク
ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ） - Qiita
ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ）Python MachineLearningChainerReinforcementLearning 初めてのQiita投稿です。Ridge-iという会社で機械学習を中心としたコンサル～開発をしてます。強化学習について教える機会が出てきたので、三目並べをベースにモンテカルロ Q-Learning Deep Q Network (いわゆるDQN) についてJupyter（ipython) で実装して教材を作りました。ちなみに強いプレーヤー同士ならば、ドローだけが繰り返されるはずです。（WarGameの有名なやつですね。）結論としてはモンテカルロ　実装簡単。100回試行位でほぼ負けなし（50回くらいだと時々負ける） Q-Learning 　更新式の設計に気
tsu-nera 2017/06/14
モンテカルロ

DQN

tictactoe
リンク
ゼロからDeepまで学ぶ強化学習 - Qiita
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
tsu-nera 2017/06/10
強化学習

MDP

dqn
リンク
keras-rl の example コードを実行するだけ - クッキーの日記
Keras を勉強します。 keras-rl でオリジナルの強化学習タスク・オリジナルのDQNモデルを学習したという記事が本日 Qiita に投稿されていましたが（参考記事）、まず keras-rl と gym がわからないので example コードを実行することにします。参考記事やること手順感想参考記事以下の記事を参考にさせていただきましたが、やったことは記事内容のトレースよりはるか低みです。 qiita.com やること強化学習で伝統的なポールバランシングタスクをエージェントに学習させます。小学生のとき掃除の時間に、手のひらに箒をのせて倒れないようにバランスを取るのをよくやったと思います。今回のタスクのポールの動く範囲は2次元平面内に制約されています。台車も直線上を動きます。 gym でのタスク設定は以下のページ参照。 OpenAI Gym CartPole-v0
tsu-nera 2017/06/09
OpenAI

DQN

keras
リンク
倒立振子でDQNにおけるモデルの複雑さと学習内容の関係をちらっと確かめてみた系の話 - めもめも
何の話かというと qiita.com 上記の記事では、「倒立振子」を題材にした、DQN（Deep Q Network）による強化学習の解説があり、非常によくまとまっています。一方、この記事の中では、全結合層を4層に重ねたネットワークを利用しているのですが、倒立振子の問題に限定すれば、もっとシンプルなネットワークでも対応できる気がしなくもありません。というわけで、「0層（パーセプトロン）」「1層」「2層」のネットワークでどこまで学習できるのか、モデルの複雑さと学習内容の関係を確認してみたよー、というのがこのブログのネタになります。 DQNとは？まずは簡単にDQNを解説しておきます。ビデオゲームの自動プレイで有名になりましたが、「与えられた環境において、最善の行動を選択する」という処理を実現することが目標です。ここで言う「行動」は、ビデオゲームの操作のように、「どのボタンを押すのか」と
tsu-nera 2017/06/09
DQN

deep learning

強化学習
リンク
1 2 次のページ