タグ

reinforcement_learningに関するmrknのブックマーク (8)

  • Home

    Deep Reinforcement Learning, Decision Making, and ControlICML 2017 Tutorial Deep learning methods, which combine high-capacity neural network models with simple and scalable training algorithms, have made a tremendous impact across a range of supervised learning domains, including computer vision, speech recognition, and natural language processing. This success has been enabled by the ability of

    Home
  • Vol.31.No.5(2016/9)多腕バンディット問題 – 人工知能学会 (The Japanese Society for Artificial Intelligence)

    小宮山純平(東京大学 生産技術研究所) はじめに多腕バンディット問題(バンディット問題, multi-armed bandit problem)は、複数のアームと呼ばれる候補から最も良いものを逐次的に探す問題である。 アームという奇妙な単語はこの問題のもとになったスロットマシン(バンディットマシン)の比喩から来ている。 予測者はいくつかのスロットマシンを与えられ、それぞれのスロットマシンを引くと対応した報酬が得られる。繰り返す試行(アームの選択)を通じて得られる報酬を最大化するのが、予測者の目標である。 報酬を最大化するという点で、バンディット問題は強化学習のカテゴリに属する。 実際、Suttonらによる強化学習のクラシックな教科書[2]でも、バンディット問題は小節を割き説明されている。 アームは、強化学習の分野ではアクションもしくはコントロールと呼ばれることがある。 バンディット問題の予

  • Gym

    Gym is a standard API for reinforcement learning, and a diverse collection of reference environments# The Gym interface is simple, pythonic, and capable of representing general RL problems: import gym env = gym.make("LunarLander-v2", render_mode="human") observation, info = env.reset(seed=42) for _ in range(1000): action = policy(observation) # User-defined policy function observation, reward, ter

  • DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita

    はじめに そもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました 公開しました 。またどうせ公開するなら、この機会にこれ(Q学習+関数近似)関連で持っている知識をついでに整理しようと思ってまとめました。 ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー!!!って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。(ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。) この記事ではNIPSとNatureの以下の2の論文 ・ V

    DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita
    mrkn
    mrkn 2015/07/12
    よくまとまっている
  • 分散深層強化学習でロボット制御 - Preferred Networks Research & Development

    新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます! まずはこの動画を御覧ください。 以下で、動画の見どころと、使っている技術を紹介します。 動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。 目の前に車がいるときは一時停止して、いなくなってから加速する。 エチオピアには当にこのような交差点があるらしい。 ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って

    分散深層強化学習でロボット制御 - Preferred Networks Research & Development
  • 強化学習を ベイズで理解する

  • 家事と「認識ギャップ」の存在、そしてバックワードチェイニング - 西尾泰和のはてなダイアリー

    nyagai: 我慢出来ない方の負け。。とUさんに教えて貰ったなぁ。。 RT @nontapapa: 逆に男子はやったもん勝ちかも…RT @sauza3: 未婚女子たちへ。いいかー、よく聞け。家事はやったもん負けだからな。 に対して nishio: 女性が「家事をやったほうが負けだ」とか思って散らかった不愉快な状態にイライラしながら耐えている間、男性のほうは散らかった状態を不愉快と思うどころか快適だと思っている。もちろん男性にもきれい好きな人はいるけど、散らかす男性は基的に不衛生の耐性が強い。 とTweetしたのだが、これを機会に説明しておこう。 もちろん男性の中にもきれい好きな人はいる。僕には僕のことしかわからない。で、僕みたいな「興味を持ったことには時々ものすごい集中力を発揮する」「でも普段はどっか抜けてる」「そして部屋がちらかっている」という特性を持っている男性は、世の中の平均的な

    家事と「認識ギャップ」の存在、そしてバックワードチェイニング - 西尾泰和のはてなダイアリー
  • 子どもに自信を与える方法

    0. これは子どもの問題ではなく大人の問題だと思う。 自分嫌いをなくそう! 都が小学生に「自尊教育」導入へ - MSN産経ニュース 1. 子どもの言動で気に入らないことがあると、とかく「しつけ」で何とかしようとする方が多いでしょう。叱りつけたりせず、自然に子どもを動かすにはどうしたらいいか、もっと知恵を絞ってほしいと思う。 親が居間でテレビを見て笑っているのに、子どもが喜んで学校の宿題などしたがるわけがない。当たり前の話でしょう? 宿題+漢字ドリル+計算ドリルなんて、親子で取り組めば1~2時間で終るもの。たったそれだけの時間を一緒に過ごすことを厭う親に育てられる子が、自分の価値を信じられるでしょうか。 家事のお手伝いだってそう。子どもだけが家事をやっている時間があると、つらい。母が夕の準備をしているとき、子どもが風呂を掃除し、父がトイレを掃除する……といった「家族みんなで家事をやる時間」

    mrkn
    mrkn 2009/03/13
    東京都の取り組みはピント外れだと思いますが、保護者教育が非現実的である以上、他に手がない
  • 1