並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 544件

新着順 人気順

強化学習の検索結果1 - 40 件 / 544件

  • なぜ日本は人工知能研究で世界に勝てないか 東大・松尾豊さんが語る“根本的な原因”

    ――米国や中国に比べ、日本は人工知能開発で遅れているといわれています。なぜ日本はこの競争に負けているのでしょうか。 松尾さん それは、日本がインターネットで世界に負けた理由と似ているのではないでしょうか。 一つは、技術の取り入れ方が非常に遅い点。1990年代後半には若者たちが「これからはネットの時代だ!」と言っていたのに、上の年代の人たちが理解しませんでした。「信用できない」「オタクが使うだけ」と否定し、新しいものが生まれなかった。 今もそれは同じです。一口にAI、人工知能といっても、新しい技術の中心であるディープラーニングに対して、従来の分野へのこだわりが強く、拒否感が強い人も大勢います。 もう一つは、若い人が力を持っていない点。若い人が自分の裁量で自在に動けるような社会環境になっていません。彼らに裁量を与えて何かやらせれば絶対に何か起こるんですけど、それをやらせないから変化が起こらない

      なぜ日本は人工知能研究で世界に勝てないか 東大・松尾豊さんが語る“根本的な原因”
    • 「AlphaGo」が進化 囲碁の打ち手教えずに従来型破る | NHKニュース

      囲碁のトップ棋士に勝った人工知能「AlphaGo」が進化し、打ち手を全く教えずに白紙の状態から学習して従来型の人工知能を破ったと開発した会社が発表し、人工知能はもはや人間の知識に制約されなくなったとしています。 この会社が開発した人工知能「AlphaGo」は、囲碁の名人の打ち手のデータを基に学習を重ね、ことし世界最強とされる中国のトップ棋士を破り、大きな話題となりました。 今回、新たに開発した「AlphaGoZero」は答えを導くデータがなくても、人工知能がみずから試行錯誤を繰り返して、よりよい答えにたどり着く、「強化学習」という手法を取り入れたということです。 そして、囲碁の基本ルール以外には何も教えず、わずか3日間で500万回の対戦をひとりでに繰り返して強さを身につけた結果、トップ棋士を破った従来型の人工知能に圧勝したということです。 さらに、新型の人工知能は白紙の状態から学習する中で

        「AlphaGo」が進化 囲碁の打ち手教えずに従来型破る | NHKニュース
      • AlphaGo Zeroの論文の要約 : ブログ

        AlphaGo Zeroが自己学習のみで過去最強になったというニュースが出たのでその元論文を読み、要約をしました。 まず感想を述べると、過去数千年にわたって蓄積してきた知識をAIが数時間で発見することに対する気持ち良さがありました。人間などクソ食らえと思っておりますので、こう言うニュースはとてもスッキリします。そして人間の発見していない打ち筋の発見にも感動しました。これこそがAIの真髄だと信じています。人間が見えていないものをAIが見つける、僕もいつかそんなことをしてみたいと思いながら生きています。 あともう一つ重要だと思ったのは、とてもネットワーク構造および学習過程が簡素化されたことです。マシンパワーも過去に比べて非常に少なく済み、個人でもすぐに再現実験ができそうなくらいです。AIが強くなることと、構造および学習のsimplerが同時に達成できていることが本質的だと思います。 一応、下記

          AlphaGo Zeroの論文の要約 : ブログ
        • pythonと遺伝的アルゴリズムで作るFX自動売買システム その1 - Qiita

          作ったモノ 次の機能を実装してみました 1. 最新の為替レートを取得し続けるプログラム 2. AIを稼働させ自動売買するプログラム 3. 最新のデータを元に新しいAIを遺伝的アルゴリズムで生成するプログラム 4. AIのパフォーマンスを測定して引退と取引通貨単位を管理するプログラム 背景 OANDAが提供している取引用APIが、かなり良い感じだったので実現できました。 特に1通貨単位(1ドル単位)で売買できるため、AI100個動かし取引を重ねても損失は1日数十円に収まります。試験時に売買システムがバグで暴走しても安心です。このAPIが無ければ個人では実現出来なかったので、良い時代になったなーと思います。 http://developer.oanda.com/rest-live/development-guide/ 遺伝的アルゴリズムの特徴 最適化問題の準最適解を短時間で解ける。 最適化問題

            pythonと遺伝的アルゴリズムで作るFX自動売買システム その1 - Qiita
          • 【人工知能】物理エンジンで人工生命つくって学習させた

            運動学習させました。この仮想生物が試行錯誤をして動き方を学習しました。この動画はマルチエージェント進化シミュレータのanlifeを開発していたときに作りました。2020/10/4 追記この後作ったゾンビを宮崎駿監督にみていただいたところが2016年にNHKで放送され一部話題になりました。2016年超会議での超人工生命の生放送企画を経て、ドワンゴにて新たな人工生命を開発することに→ リリース後半年でサービスクローズ人工生命を作る会社を立ち上げました→ https://attructure.com/

              【人工知能】物理エンジンで人工生命つくって学習させた
            • AIにかくれんぼをさせたら徐々に高度な戦略を編み出し、人間には思いつかないような作戦を取るようになった「腹抱えて笑った」

              小猫遊りょう(たかにゃし・りょう) @jaguring1 AIにかくれんぼをさせたら、徐々に高度な戦略を編み出していって、あるとき、隠れる側が鬼を隠すゲームになってるの、何度見ても笑う twitter.com/OpenAI/status/… 2019-09-20 15:01:16 OpenAI @OpenAI Wondering why the hiders did not cage in the seekers instead of building their own fort? In one environment variant where hiders have to protect glowing orbs, that's exactly what they learned to do! pic.twitter.com/yifS7rI4eR 2019-09-20 07:39:0

                AIにかくれんぼをさせたら徐々に高度な戦略を編み出し、人間には思いつかないような作戦を取るようになった「腹抱えて笑った」
              • ゼロからDeepまで学ぶ強化学習 - Qiita

                ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。 本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン 講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ

                  ゼロからDeepまで学ぶ強化学習 - Qiita
                • Machine Learning | Coursera

                  We asked all learners to give feedback on our instructors based on the quality of their teaching style.

                    Machine Learning | Coursera
                  • PythonとKerasを使ってAlphaZero AIを自作する | POSTD

                    自己対戦と深層学習でマシンにコネクトフォー(Connect4:四目並べ)の戦略を学習させましょう。 この記事では次の3つの話をします。 AlphaZeroが人工知能(AI)への大きなステップである2つの理由 AlphaZeroの方法論のレプリカを 作って コネクト4のゲームをプレイさせる方法 そのレプリカを改良して他のゲームをプラグインする方法 AlphaGo→AlphaGo Zero→AlphaZero 2016年3月、DeepmindのAlphaGo(アルファ碁)が、囲碁の18回の世界王者、李世乭(イー・セドル)との五番勝負で、2億人の見守る中、4-1で勝利しました。機械が超人的な囲碁の技を学習したのです。不可能だとか、少なくとも10年間は達成できないと思われていた偉業です。 AlphaGo 対 李世乭の第3局 このことだけでも驚くべき功績ですが、DeepMindは、2017年10月、

                      PythonとKerasを使ってAlphaZero AIを自作する | POSTD
                    • 人工知能技術の健全な発展のために - Preferred Networks Research & Development

                      4月10日の日経ITproの記事「 AIベンチャーの雄が総務省の開発指針に反対する理由」で、総務省主導で推進されているAIネットワーク社会推進会議とその開発原則分科会からPFNが離脱したことを、取り上げていただきました。私とのとりとめのないインタビューを適切にまとめてくださった日経ITpro浅川記者に深く感謝いたします。また、その記事に対して、はてなブックマーク、NewsPicks、FacebookなどのSNSを通して多くのコメントを下さった方にも感謝の意を表します。ありがとうございます。離脱の理由は記事にある通りですが、総務省の方々も私達の立場を真摯に受け止めてくださっていて、実りのある議論を続けてくださっています。その上で、今後の議論を深めるために、いくつかの点について補足したいと思います。 汎用人工知能と特化型人工知能 現在、人工知能という言葉は大雑把には、 汎用人工知能(「強い」人

                        人工知能技術の健全な発展のために - Preferred Networks Research & Development
                      • どうぶつしょうぎ名人 - まめめも

                        どうぶつしょうぎ AI を作りました。絶対に勝てません。無力感を味わってください。 ref: http://mame.github.io/dobutsu-shogi-master どうぶつしょうぎとは 3 マス x 4 マスの単純化された将棋です。ライオン(王相当)、ぞう(1 マスしか進めない角行)、キリン(1 マスしか進めない飛車)、ひよこ(歩相当、にわとりに成ったら金相当)の 4 種類の駒を動かして、相手のライオンを取るか、トライ(ライオンを一番奥の行まで運ぶ、ただし直後に取られる場合はだめ)に成功すれば勝ちです。詳しくは Wikipedia の記事を見てください。 どうぶつしょうぎは後手必勝であることが知られています(研究報告)。つまり、後手が正しくプレイする限り、先手は絶対に勝てません。どうぶつしょうぎ名人は常に正しくプレイするので、先手のあなたは絶対に勝てません。 なんで作ったの

                          どうぶつしょうぎ名人 - まめめも
                        • 機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS

                          はじめに ここでは、機械学習、ディープラーニング、強化学習、ベイズを無料で学ぶことのできるオンラインリソースを項目ごとにまとめておきます。 機械学習 ITについて学べるオンライン講座「Udacity」は、基本的に有料で講座を受けるのですが、中には非常に中身の詰まったコンテンツで、かつ無料の講座も存在します。 以下の講座では、機械学習の各技術に関して広くカバーしており、決定木からサポートベクターマシン、ニューラルネットワークやベイズ、強化学習まで学ぶことができます。 かなりのボリュームなので興味のあるところを学んでいく感じでも良いと思います。 www.udacity.com s0sem0y.hatenablog.com s0sem0y.hatenablog.com ディープラーニング 同じくUdacityからディープラーニングに関する講座です。 多層パーセプトロンから畳み込みニューラルネット

                            機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS
                          • 深層強化学習アルゴリズムまとめ

                            はじめに 深層強化学習の分野では日進月歩で新たなアルゴリズムが提案されています. それらを学ぶ上で基礎となるアルゴリズム(というより概念に近い?)はQ学習, SARSA, 方策勾配法, Actor-Criticの4つだと思われるので, これらを軸としてまとめてみたいと思います. 以下の4点はあらかじめご了承ください. コードは書いていません. 概念のみの説明です 他のアルゴリズムの基礎となりうる重要な概念については詳しく書きました. その他については簡潔に書きました 深層学習についてはある程度理解している読者を想定しています 書いているうちに規模がどんどん大きくなってしまったので, どこかに必ず間違いや不足があります. 「この式がおかしい!」「このアルゴリズムも追加するべき!」などコメントがあればぜひお願いします 全体像 扱うアルゴリズムを相関図にしてみました(私のイメージです). まず,

                              深層強化学習アルゴリズムまとめ
                            • 深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉

                              Photo via Visual Hunt 少し前のことですが、AlphaGoという囲碁の人工知能プログラムがイ・セドル九段に勝利したことで話題になりました。*1 また、一部のゲームにおいて「DQN(Deep Q-network)」が人間よりも上手くプレイするようになったというニュースも話題になっていましたね。*2 今回はこれらの事例で使われている「深層強化学習」という仕組みを使って、FXのシステムトレードができないかと思い、調べてみました。 注意:強化学習もFXも勉強し始めたばかりなので、色々間違っている箇所があるかもしれません。ご指摘いただけると幸いです。 今回の内容 1.強化学習について 1-1.強化学習 1-2.Reinforcement Learning: An Introduction (2nd Edition) 1-3.UCL Course on RL 1-4.強化学習につい

                                深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉
                              • AlphaGoが誇大広告ぎみな件 - A級リーグ指し手1号

                                Googleが開発した囲碁ソフトのAlphaGoが、世界で初めてプロ棋士に勝ったコンピュータとして大きなニュースになっています。Nature誌に論文が掲載されたのですが、仔細に読むといくつか不可解な点がありましたので、調査・考察してみました。 AlphaGoの論文はこちらから見えます。プロ棋士に勝ったこともありますが、何よりコンピュータ囲碁開発者(及び隣の分野のコンピュータ将棋開発者)を驚かせたのは、「既存の他の囲碁プログラムと対戦させた結果、495戦494勝だった」との報告でした。この報告は衝撃的で、これを読んだ他のコンピュータ囲碁開発者たちからは「俺の今までの努力が否定された」「目標を見失ってしまった」などの悲嘆の発言が相次ぐ始末でした。 論文から、AlphaGo、対戦相手のプロ棋士、及び他のソフトのレーティングを示したグラフを引用します。 CrazyStoneとZenはこれまでは最強

                                  AlphaGoが誇大広告ぎみな件 - A級リーグ指し手1号
                                • 2017年のディープラーニング論文100選 - Qiita

                                  これはFujitsu Advent Calendar 2017の18日目の記事です。 掲載内容は富士通グループを代表するものではありません。ただし、これまでの取り組みが評価されて、富士通がQiitaに正式参加することになりました[リンク]。なお、内容の正確性には注意を払っていますが、無保証です。 はじめに この記事では今年発表されたディープラーニング論文(ArXivでの発表時期、発表された国際会議が2017年開催またはジャーナル掲載が2017年のもの)から私が個人的に重要だと思った論文を収集しています。また、2016年末ごろの論文も重要なものは採用しています。 以下の投稿も合わせてご覧ください。 2016年のディープラーニング論文100選[リンク] ディープラーニングにとっての2017年 2017年のディープラーニング技術は主に画像系技術で革新的な進歩がありました。それをけん引したのは敵対

                                    2017年のディープラーニング論文100選 - Qiita
                                  • ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning

                                    Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference. 言語処理学会第24回年次大会(NLP2018) での講演資料です。 http://www.anlp.jp/nlp2018/#tutorialRead less

                                      ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
                                    • 誰でもわかる強化学習

                                      本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強化学習が使用(RLHF等)され,さらに強化学習をLLMに本格的に組み込んだAI( GoogleのGemini,OpenAIのQ*等)の出現が予想されることから,�強化学習の知識の普及のため公開しました.

                                        誰でもわかる強化学習
                                      • 分散深層強化学習でロボット制御 - Preferred Networks Research & Development

                                        新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます! まずはこの動画を御覧ください。 以下で、動画の見どころと、使っている技術を紹介します。 動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。 目の前に車がいるときは一時停止して、いなくなってから加速する。 エチオピアには本当にこのような交差点があるらしい。 ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って

                                          分散深層強化学習でロボット制御 - Preferred Networks Research & Development
                                        • ディープラーニングが活かすIoT

                                          Interop2015 セミナーでの講演資料 デモリンク:https://www.youtube.com/watch?v=a3AWpeOjkzw RNN, VAE, 深層強化学習, PFNの取り組みについて

                                            ディープラーニングが活かすIoT
                                          • これさえ読めばすぐに理解できる強化学習の導入と実践

                                            強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。 すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。 一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。 機械学習の中でも、こ

                                              これさえ読めばすぐに理解できる強化学習の導入と実践
                                            • 深層強化学習の動向 / survey of deep reinforcement learning

                                              全脳アーキテクチャ若手の会第28回勉強会 Keywords: DQN, 強化学習, Episodic Control, Curiosity-driven Exploration

                                                深層強化学習の動向 / survey of deep reinforcement learning
                                              • AlphaGo: マシンラーニングで囲碁を

                                                メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

                                                  AlphaGo: マシンラーニングで囲碁を
                                                • ゲームを自ら学んで人間以上に上達できる人工知能「DQN」が人間を脅かす日はいつくるのか?

                                                  By PhOtOnQuAnTiQuE 人間の脳が学習する仕組みを再現するディープラーニングの研究が進んだことで、コンピューターによる人工知能(AI)の技術が飛躍的な進化を遂げています。Googleが500億円で買収したといわれているイギリスのベンチャー企業「DeepMind」が開発したエージェントプログラム「DQN(Deep Q-Network)」は一度プログラムを起動させるとあとは人間が手を加えなくても「スペースインベーダー」や「ブロック崩し」といったゲームを一人で勝手に練習し、ハイスコアをたたき出す方法を学習できるレベルに達しており、今後のAI開発をさらに加速させるブレークスルーになると考えられています。 Google DeepMind http://deepmind.com/ Human-level control through deep reinforcement learnin

                                                    ゲームを自ら学んで人間以上に上達できる人工知能「DQN」が人間を脅かす日はいつくるのか?
                                                  • 深層強化学習の最前線 - Speaker Deck

                                                    アドベントカレンダーを完走する技術 / Techniques for completing an advent calendar

                                                      深層強化学習の最前線 - Speaker Deck
                                                    • 33122

                                                      Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法(柔軟な動き)を独学で生成する強化学習を用いたアプローチを提案した論文を発表 2017-07-11 GoogleのAIを研究する子会社「DeepMind」は、強化学習で人型含めシミュレートされた環境の中で複雑で柔軟な動きを生成するアプローチを提案した論文を公開しました。 Emergence of Locomotion Behaviours in Rich Environments(PDF) これら動きは、コンピュータが独学で最善の方法として考案した行動です。 研究者は、エージェントに動きのセットと前進するインセンティブを与え、AからB地点にたどり着く最善の方法を生み出すための強化学習を仕込みます。 コンピュータは、今ある動作を使って試行錯誤を繰り返し、さまざまな動き方を思いつく中で次々と最善へ近づけてい

                                                        33122
                                                      • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

                                                        こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

                                                          自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
                                                        • Engadget | Technology News & Reviews

                                                          Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

                                                          • 深層学習を超えた手法とは何か : 思考のカケラ

                                                            最近、深層学習の精度を超えた手法が発表されています。 今回は、昨日(6月17日)ニュースになったDeepmindによるPredictron(自動計画+強化学習)も含めて、紹介します。

                                                              深層学習を超えた手法とは何か : 思考のカケラ
                                                            • Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏

                                                              Ponanzaにおける強化学習とA/Bテスト運用 山本一成氏(以下、山本):山本一成と申します。よろしくお願いします。 ありがとうございます。ここからはややガチめなエンジニアの話です。まず確認したいんですが、エンジニアとかプログラマーって人はどれくらいいるんですかね? (会場挙手) あ、けっこういるのか! 安心した(笑)。 私、10年くらい将棋のプログラムを作ってきて、最初はまったくのど素人から始めたんですけど、いろいろやっていく中で、現代にも通じるようなさまざまな運用とかが出てきたんですね。そのへんをみなさんと共有できればと思っています。 まず最初のスライド、さっそく手書きでやる気がない感じですが(笑)。将棋のプログラムってどんなもの? という話です。将棋も囲碁も、大雑把にいうと、2つの要素があります。1つは探索です。つまり、先を読むということですね。 先を読むと強いです。みなさんもそん

                                                                Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏
                                                              • GoogleのAIが自力で「子AIの作成」に成功、しかも人間作より優秀 | Buzzap!

                                                                シンギュラリティが始まったようです。詳細は以下から。 人間を越える人工知能が現れ、自らの力で新たな人工知能を作り上げてゆく未来。シンギュラリティ(技術的特異点)と呼ばれる時系列的な瞬間は2045年頃に起こるとされていましたが、既に私たちはその領域に足を踏み入れていました。 Google Brainの研究者らが「自らの力で新たな人工知能を作り上げるAI」であるAutoMLの開発に成功したと発表したのが今年2017年5月のこと。そしてこの度、AutoMLが作り上げた「子AI」はこれまで人類が作り上げたAIよりも優れた性能を持っていたのです。 Googleの研究者らは「強化学習(reinforcement learning)」と呼ばれる手法を用いて機械学習モデルのデザインを自動化。AutoMLは子AIが特定のタスクへの対応力を発展させるためのニューラルネットワークの制御装置の役割を担います。 今

                                                                  GoogleのAIが自力で「子AIの作成」に成功、しかも人間作より優秀 | Buzzap!
                                                                • FizzBuzz Zero ―― 人類の知識なしでFizzBuzzをマスターする

                                                                  for i in range(1, 101): if i % 15 == 0: print("FizzBuzz") elif i % 3 == 0: print("Fizz") elif i % 5 == 0: print("Buzz") else: print(i) プログラム問題としてあまりにも有名になってしまったので、今ではあらゆる言語のFizzBuzzがそろっています。面白いですね。 深層学習 で FizzBuzz この記事の読まれている大半の方は、FizzBuzzを書くのにあまり苦労しないでしょう。 しかし、あなたが何かの拍子でプログラムの書き方を忘れてしまったらどうでしょう? 心配する必要はありません。そういうときこそAIの出番です。 最近は空前の人工知能ブームで、猫も杓子もDeep Learningです。 実際、Deep LearningによるFizzBuzzは、いくつも先例

                                                                    FizzBuzz Zero ―― 人類の知識なしでFizzBuzzをマスターする
                                                                  • これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita

                                                                    ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。 つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売 これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。 さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。 本記事では、ひとつずつ解説します。 オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ●速習 強化学習: 基礎理論とアルゴリズム(書籍) ●Deep Learning for Video Game Playing 強化学習とは 強化学習は、画像識別のような教師あり学習や、クラスタリングのような教師なし

                                                                      これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita
                                                                    • cakes(ケイクス)

                                                                      cakesは2022年8月31日に終了いたしました。 10年間の長きにわたり、ご愛読ありがとうございました。 2022年9月1日

                                                                        cakes(ケイクス)
                                                                      • DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita

                                                                        はじめに そもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました 公開しました 。またどうせ公開するなら、この機会にこれ(Q学習+関数近似)関連で持っている知識をついでに整理しようと思ってまとめました。 ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー!!!って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。(ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。) この記事ではNIPSとNatureの以下の2本の論文 ・ V

                                                                          DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita
                                                                        • 機械学習をやりたいけれど、どこから手をつけていいか分からない人のために - Qiita

                                                                          要約 機械学習をやりたいけれど、どこから手をつけていいか分からない。 → まずは機械学習の全体像を調べて、自分が解きたい問題にあった分野の見当をつけよう! 投稿の目的 機械学習について、自分の学習記録を投稿いたします。 学習記録とは書いていますが、ただの備忘録ではなく、以下の目的から誰かに読んでいただくことを想定しています。 自分の解釈についてフィードバックを得たい。 自分の考えをわかりやすく人に伝える力を付けたい。 せっかくだし、自分と同じ内容を勉強している人には役立ててもらいたい。 はじめに これは機械学習以外にも言えることですが、専門技術というのは理論と実践が1セットになっています。 この両輪を回して初めて専門技術を習得することができます。 そして、理論と実践を修めるには大きく2つのアプローチ方法があります。 先に理論を修め、それを実問題に適用する人(理論(1)→実践先(N)) 先に

                                                                            機械学習をやりたいけれど、どこから手をつけていいか分からない人のために - Qiita
                                                                          • 強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

                                                                            はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は意外と多いのではないかと思われます。これを知っていようが知っていまいが、正直世の中の便利なフレームワークを活用すれば強化学習を実行することは可能であるためだと推測されます。 しかし、ある種の出発点になっているはずの基礎方程式を無視して、ガチャガチャ色々試してみても、なんだかフワついたままでモヤモヤしてしまうのではないでしょうか。少なくとも自分はそうです。 なので今回はベルマン方程式を基本から丁寧に解説していきたいと思います。 ベルマン方程式の概要 細かい話をする前に、ベルマン方程式がど

                                                                              強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
                                                                            • AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃

                                                                              AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学

                                                                                AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
                                                                              • 深層強化学習ライブラリChainerRL - Preferred Networks Research & Development

                                                                                Chainerを使った深層強化学習ライブラリChainerRLを公開しました. https://github.com/pfnet/chainerrl PFNエンジニアの藤田です.社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました.RLはReinforcement Learning(強化学習)の略です.以下のような最近の深層強化学習アルゴリズムを共通のインタフェースで使えるよう実装してまとめています. Deep Q-Network (Mnih et al., 2015) Double DQN (Hasselt et al., 2016) Normalized Advantage Function (Gu et al., 2016) (Persistent) Advantage Learning (Bellemar

                                                                                  深層強化学習ライブラリChainerRL - Preferred Networks Research & Development
                                                                                • 強化学習で考えるギャンブラーの最適行動 - kivantium活動日記

                                                                                  強化学習と呼ばれる機械学習の一分野があります。機械学習というと、入力に対して正解の出力を当てる教師あり学習が話題になることが多いですが、強化学習では明示的に正解が与えられません。ある行動を試してみて、それに対して得られる「報酬」から自分でどのような行動が良い結果をもたらすのかを判断して、より良い行動を学習するアルゴリズムになっています。 強化学習にはチェスやリバーシなどといったボードゲームのAIやロボットの行動学習などの応用例があります。この前話題になったDeep Q Network、通称DQNも強化学習の一種です。応用例が面白いにも関わらず、PRMLなどの主要な機械学習の教科書では強化学習を扱わないことが多いので、いま強化学習だけの参考書を買って勉強しています。 強化学習 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章出版社/メーカー: 森北出

                                                                                    強化学習で考えるギャンブラーの最適行動 - kivantium活動日記