[B! 強化学習] goodtime683のブックマーク

https://arxiv.org/pdf/1710.08012v1.pdf

goodtime683 2017/10/26

リンク

強化学習について学んでみた。（その8） - いものやま。

昨日はグリーディ法とグリーディ法を扱った。今日はn本腕バンディット問題に対する別のアルゴリズムを考えていく。ソフトマックス法グリーディ法では、探査を行うために、の確率でランダムに行動を選択していた。もう一つ、探査を行うための方法として、推定される行動の価値の比率に応じて行動を選択するという方法が考えられる。すなわち、推定される行動の価値から、価値が高そうな行動はより選ばれやすく、価値が低そうな行動は選ばれにくく（けど、全く選ばれないわけではないように）なる確率にしたがって行動を選択する。そうすれば、基本的には価値が高いと思われる行動が選ばれ、たまに他の行動の探査も行われるようになる。このようなアルゴリズムを、ソフトマックス法（ソフトマックス行動選択）と呼ぶ。ソフトマックス法の具体的な方策（ポリシー）の一つは、次のようになる。上記のは温度と呼ばれる学習パラメータで、温度が高

goodtime683 2017/10/19

“# 得られた報酬を反映し、学習する。 # -- # selected: 選んだ腕 # value: 得られた報酬”

強化学習

リンク

https://arxiv.org/pdf/1710.05465v1.pdf

goodtime683 2017/10/18

リンク

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

goodtime683 2017/10/13

リンク

https://classroom.udacity.com/courses/ud600/lessons/4676850295/concepts/46733448110923

goodtime683 2017/10/13

リンク

これさえ読めばすぐに理解できる強化学習の導入と実践

強化学習の位置づけ教師あり学習教師なし学習強化学習強化学習の応用事例 Atariの攻略 Alpha Go ロボットの自動動作獲得ファイナンスへの応用広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる状態行動報酬実装参考文献ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。機械学習の中でも、こ

goodtime683 2017/10/13

リンク

深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉

Photo via Visual Hunt 少し前のことですが、Alpha Goという囲碁の人工知能プログラムがイ・セドル九段に勝利したことで話題になりました。*1 また、一部のゲームにおいて「DQN（Deep Q-network）」が人間よりも上手くプレイするようになったというニュースも話題になっていましたね。*2 今回はこれらの事例で使われている「深層強化学習」という仕組みを使って、FXのシステムトレードができないかと思い、調べてみました。注意：強化学習もFXも勉強し始めたばかりなので、色々間違っている箇所があるかもしれません。ご指摘いただけると幸いです。今回の内容 1.強化学習について 1-1.強化学習 1-2.Reinforcement Learning: An Introduction (2nd Edition) 1-3.UCL Course on RL 1-4.強化学習につい

goodtime683 2017/10/12

“強化学習について学んでみた。（まとめ） - いものやま。”

リンク

強化学習について学んでみた。（その1） - いものやま。

ゲームを作っていくときに必要となるのが、AIの作成。変種オセロを作っているときにもいくつかの探索アルゴリズムを実装したけれど、盤面の評価については単純に「出来るだけ自分の色が多く、そして相手の色が少ない方がいい」としただけだった。ただ、これだと辺や隅をとることの重要性をまったく理解できず、人に簡単に辺や隅を取られてしまう。なので、途中までは実利が大きくても、最後には辺や隅の力で実利がひっくり返されるということがよく起きて、なかなか勝てなかったりする。そこで、AIをより強くするには、盤面をより正確に評価できるようにする必要がある。盤面の評価方法盤面をどのように評価するかーーすなわち、盤面の評価関数をどのように作るかーーというのには、いくつかの方法が考えられる。人の手による方法まず考えられるのは、盤面の特徴的な値に対して、それぞれ評価の重みを決めておき、それらを掛けて合算した値

goodtime683 2017/10/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

強化学習に関するgoodtime683のブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス