[B! あとで読む][マルコフ決定過程][強化学習] hsato2011のブックマーク

hsato2011 id:hsato2011

あとで読むとマルコフ決定過程と強化学習に関するhsato2011のブックマーク (1)

Pythonではじめる強化学習 - Qiita
はじめにみなさん、強化学習してますか？強化学習はロボットや、囲碁や将棋のようなゲーム、対話システム等に応用できる楽しい技術です。強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組みです。教師あり学習では入力に対する正しい出力を与えて学習させました。強化学習では、入力に対する正しい出力を与える代わりに、一連の行動に対する良し悪しを評価する「報酬」というスカラーの評価値が与え、これを手がかりに学習を行います。以下に強化学習の枠組みを示します。エージェントは時刻 $t$ において環境の状態 $s_t$ を観測観測した状態から行動 $a_t$ を決定エージェントは行動を実行環境は新しい状態 $s_{t+1}$ に遷移遷移に応じた報酬 $r_{t+1}$ を獲得学習するステップ1から繰り返す強化学習の目的は、エージェントが取得する利得（累積報酬）を最大化するような、状態
hsato2011 2016/10/26
強化学習の説明

強化学習

エージェント

マルコフ決定過程

あとで読む

関連研究
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx