タグ

*あとで読むとDQNに関するhsato2011のブックマーク (1)

  • DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita

    はじめに そもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました 公開しました 。またどうせ公開するなら、この機会にこれ(Q学習+関数近似)関連で持っている知識をついでに整理しようと思ってまとめました。 ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー!!!って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。(ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。) この記事ではNIPSとNatureの以下の2の論文 ・ V

    DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita
    hsato2011
    hsato2011 2016/10/27
    Q-learningの強化学習の収束条件は、真の価値関数に近づいてるか(差)を条件とする。
  • 1