並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 505件

新着順 人気順

強化学習の検索結果1 - 40 件 / 505件

  • ゼロからDeepまで学ぶ強化学習 - Qiita

    ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。 本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン 講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ

      ゼロからDeepまで学ぶ強化学習 - Qiita
    • 機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS

      はじめに ここでは、機械学習、ディープラーニング、強化学習、ベイズを無料で学ぶことのできるオンラインリソースを項目ごとにまとめておきます。 機械学習 ITについて学べるオンライン講座「Udacity」は、基本的に有料で講座を受けるのですが、中には非常に中身の詰まったコンテンツで、かつ無料の講座も存在します。 以下の講座では、機械学習の各技術に関して広くカバーしており、決定木からサポートベクターマシン、ニューラルネットワークやベイズ、強化学習まで学ぶことができます。 かなりのボリュームなので興味のあるところを学んでいく感じでも良いと思います。 www.udacity.com s0sem0y.hatenablog.com s0sem0y.hatenablog.com ディープラーニング 同じくUdacityからディープラーニングに関する講座です。 多層パーセプトロンから畳み込みニューラルネット

        機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS
      • 深層強化学習アルゴリズムまとめ

        はじめに 深層強化学習の分野では日進月歩で新たなアルゴリズムが提案されています. それらを学ぶ上で基礎となるアルゴリズム(というより概念に近い?)はQ学習, SARSA, 方策勾配法, Actor-Criticの4つだと思われるので, これらを軸としてまとめてみたいと思います. 以下の4点はあらかじめご了承ください. コードは書いていません. 概念のみの説明です 他のアルゴリズムの基礎となりうる重要な概念については詳しく書きました. その他については簡潔に書きました 深層学習についてはある程度理解している読者を想定しています 書いているうちに規模がどんどん大きくなってしまったので, どこかに必ず間違いや不足があります. 「この式がおかしい!」「このアルゴリズムも追加するべき!」などコメントがあればぜひお願いします 全体像 扱うアルゴリズムを相関図にしてみました(私のイメージです). まず,

          深層強化学習アルゴリズムまとめ
        • 深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉

          Photo via Visual Hunt 少し前のことですが、AlphaGoという囲碁の人工知能プログラムがイ・セドル九段に勝利したことで話題になりました。*1 また、一部のゲームにおいて「DQN(Deep Q-network)」が人間よりも上手くプレイするようになったというニュースも話題になっていましたね。*2 今回はこれらの事例で使われている「深層強化学習」という仕組みを使って、FXのシステムトレードができないかと思い、調べてみました。 注意:強化学習もFXも勉強し始めたばかりなので、色々間違っている箇所があるかもしれません。ご指摘いただけると幸いです。 今回の内容 1.強化学習について 1-1.強化学習 1-2.Reinforcement Learning: An Introduction (2nd Edition) 1-3.UCL Course on RL 1-4.強化学習につい

            深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉
          • ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning

            Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference. 言語処理学会第24回年次大会(NLP2018) での講演資料です。 http://www.anlp.jp/nlp2018/#tutorialRead less

              ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
            • 誰でもわかる強化学習

              本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強化学習が使用(RLHF等)され,さらに強化学習をLLMに本格的に組み込んだAI( GoogleのGemini,OpenAIのQ*等)の出現が予想されることから,�強化学習の知識の普及のため公開しました.

                誰でもわかる強化学習
              • 分散深層強化学習でロボット制御 - Preferred Networks Research & Development

                新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます! まずはこの動画を御覧ください。 以下で、動画の見どころと、使っている技術を紹介します。 動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。 目の前に車がいるときは一時停止して、いなくなってから加速する。 エチオピアには本当にこのような交差点があるらしい。 ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って

                  分散深層強化学習でロボット制御 - Preferred Networks Research & Development
                • ChatGPT�人間のフィードバックから強化学習した対話AI

                  東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です. 特に以下のような話題,技術について解説しています. ・ChatGPTの凄さ ・ChatGPTの技術 ・言語モデル ・プロンプト ・GPTとは ・InstructGPT ・言語モデルと強化学習 ・RLFH

                    ChatGPT�人間のフィードバックから強化学習した対話AI
                  • これさえ読めばすぐに理解できる強化学習の導入と実践

                    強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。 すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。 一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。 機械学習の中でも、こ

                      これさえ読めばすぐに理解できる強化学習の導入と実践
                    • 深層強化学習の動向 / survey of deep reinforcement learning

                      全脳アーキテクチャ若手の会第28回勉強会 Keywords: DQN, 強化学習, Episodic Control, Curiosity-driven Exploration

                        深層強化学習の動向 / survey of deep reinforcement learning
                      • 深層強化学習の最前線 - Speaker Deck

                        アドベントカレンダーを完走する技術 / Techniques for completing an advent calendar

                          深層強化学習の最前線 - Speaker Deck
                        • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

                          こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

                            自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
                          • Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏

                            Ponanzaにおける強化学習とA/Bテスト運用 山本一成氏(以下、山本):山本一成と申します。よろしくお願いします。 ありがとうございます。ここからはややガチめなエンジニアの話です。まず確認したいんですが、エンジニアとかプログラマーって人はどれくらいいるんですかね? (会場挙手) あ、けっこういるのか! 安心した(笑)。 私、10年くらい将棋のプログラムを作ってきて、最初はまったくのど素人から始めたんですけど、いろいろやっていく中で、現代にも通じるようなさまざまな運用とかが出てきたんですね。そのへんをみなさんと共有できればと思っています。 まず最初のスライド、さっそく手書きでやる気がない感じですが(笑)。将棋のプログラムってどんなもの? という話です。将棋も囲碁も、大雑把にいうと、2つの要素があります。1つは探索です。つまり、先を読むということですね。 先を読むと強いです。みなさんもそん

                              Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏
                            • これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita

                              ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。 つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売 これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。 さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。 本記事では、ひとつずつ解説します。 オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ●速習 強化学習: 基礎理論とアルゴリズム(書籍) ●Deep Learning for Video Game Playing 強化学習とは 強化学習は、画像識別のような教師あり学習や、クラスタリングのような教師なし

                                これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita
                              • オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

                                Stability AIが、オープンソースのチャットボット 「StableVicuna」を発表 オンラインで「StableVicuna」との会話を試すことが可能 チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日(金)にオープンソースのチャットボット「StableVicuna」 を発表しました。 Announcing StableVicuna, the AI World’s First Open Source RLHF LLM Chatbot!@CarperAI (in an effort led by @phungvanduy1) is releasing an RLHF-trained version of Vicuna-13B Learn more → https://t.co/fWk3N8Njg5 pic.twitter.com/

                                  オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI
                                • 強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

                                  はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は意外と多いのではないかと思われます。これを知っていようが知っていまいが、正直世の中の便利なフレームワークを活用すれば強化学習を実行することは可能であるためだと推測されます。 しかし、ある種の出発点になっているはずの基礎方程式を無視して、ガチャガチャ色々試してみても、なんだかフワついたままでモヤモヤしてしまうのではないでしょうか。少なくとも自分はそうです。 なので今回はベルマン方程式を基本から丁寧に解説していきたいと思います。 ベルマン方程式の概要 細かい話をする前に、ベルマン方程式がど

                                    強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
                                  • AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃

                                    AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学

                                      AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
                                    • 深層強化学習ライブラリChainerRL - Preferred Networks Research & Development

                                      Chainerを使った深層強化学習ライブラリChainerRLを公開しました. https://github.com/pfnet/chainerrl PFNエンジニアの藤田です.社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました.RLはReinforcement Learning(強化学習)の略です.以下のような最近の深層強化学習アルゴリズムを共通のインタフェースで使えるよう実装してまとめています. Deep Q-Network (Mnih et al., 2015) Double DQN (Hasselt et al., 2016) Normalized Advantage Function (Gu et al., 2016) (Persistent) Advantage Learning (Bellemar

                                        深層強化学習ライブラリChainerRL - Preferred Networks Research & Development
                                      • 強化学習で考えるギャンブラーの最適行動 - kivantium活動日記

                                        強化学習と呼ばれる機械学習の一分野があります。機械学習というと、入力に対して正解の出力を当てる教師あり学習が話題になることが多いですが、強化学習では明示的に正解が与えられません。ある行動を試してみて、それに対して得られる「報酬」から自分でどのような行動が良い結果をもたらすのかを判断して、より良い行動を学習するアルゴリズムになっています。 強化学習にはチェスやリバーシなどといったボードゲームのAIやロボットの行動学習などの応用例があります。この前話題になったDeep Q Network、通称DQNも強化学習の一種です。応用例が面白いにも関わらず、PRMLなどの主要な機械学習の教科書では強化学習を扱わないことが多いので、いま強化学習だけの参考書を買って勉強しています。 強化学習 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章出版社/メーカー: 森北出

                                          強化学習で考えるギャンブラーの最適行動 - kivantium活動日記
                                        • LLM時代の強化学習 - どこから見てもメンダコ

                                          強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

                                            LLM時代の強化学習 - どこから見てもメンダコ
                                          • サッカーを強化学習する - 思考の本棚

                                            はじめに この記事は強化学習苦手の会Advent Calenderの12日目の記事です。 私は11月末までKaggle上で開催されていたGoogle Research Football with Manchester City F.C.に参加していました。このコンペはGoogle Researchが用意したサッカーゲーム上でサッカーエージェント(プレイヤー)を作成し、その強さを競うというものです。 私はhigeponさんとチームを組ませていただき、強化学習アプローチでコンペ開催から終了まで取り組みました。そこでサッカーエージェントを強化学習で育成する際に工夫した点や苦労した点を共有できればと思います。 kaggle: Google Research Football competition www.kaggle.com GitHub: Google Research Football gi

                                              サッカーを強化学習する - 思考の本棚
                                            • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

                                              東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

                                                強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
                                              • ChatGPT 人間のフィードバックから強化学習した対話AI

                                                東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です. 特に以下のような話題,技術について解説しています. ・ChatGPTの凄さ ・ChatGPTの技術 ・言語モデル ・プロンプト ・GPTとは ・InstructGPT ・言語モデルと強化学習Read less

                                                  ChatGPT 人間のフィードバックから強化学習した対話AI
                                                • 深層強化学習:ピクセルから『ポン』 – 前編 | POSTD

                                                  (訳注:2016/6/28、記事を修正いたしました。) 本記事は、もう随分と前から投稿したいと思っていた強化学習(RL)に関するものです。RLは盛り上がっています。皆さんも既にご存知のこととは思いますが、今やコンピュータは ATARI製ゲームのプレイ方法を自分で学習する ことができ(それも生のゲーム画像のピクセルから!)、 囲碁 の世界チャンピオンにも勝つことができます。シミュレーションの四肢動物は 走って飛び跳ねる ことを学習しますし、ロボットは明示的にプログラミングするのが難しいような 複雑な操作のタスク でも、その実行方法を学習してしまいます。こうした進歩はいずれも、RL研究が基となって実現しています。私自身も、ここ1年ほどでRLに興味を持つようになりました。これまで、 Richard Suttonの著書 で勉強し、 David Silverのコース を通読、 John Schulm

                                                    深層強化学習:ピクセルから『ポン』 – 前編 | POSTD
                                                  • Pythonで学ぶ強化学習 -入門から実践まで-を書きました

                                                    約1年半ほどかかりましたが、「Pythonで学ぶ強化学習 入門から実践まで」を書き上げました。本記事ではAsian Kung-Fu Generationさんがアルバム発売の度に行っている全曲解説にのっとり、各章の見所や苦労した点を紹介したいと思います。

                                                      Pythonで学ぶ強化学習 -入門から実践まで-を書きました
                                                    • 強化学習とは?(What is Reinforcement Learning?)

                                                      強化学習の概要,応用上の利点,適用例,基礎理論,代表的手法,応用に必要な技術などの説明。 本ページの記述は下記の解説記事をもとにWEB用に修正したものである: 木村 元,宮崎 和光,小林 重信: 強化学習システムの設計指針, 計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第1章: 強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること 第2章: 強化学習の適用例:ロボットの歩行動作獲得 第3章: 強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc

                                                        強化学習とは?(What is Reinforcement Learning?)
                                                      • YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜

                                                        はじめにこの記事は「eureka Advent Calendar 2019」24日目の記事です。 こんにちは、Data Analystの @pacocat です! 私はeurekaには2019年11月に入社したばかりなのですが、毎日楽しく仕事させてもらっています。最近はプロダクト開発のための定性調査の仕組みづくりを手伝ったり、事業分析や組織開発をしていたりと、様々な定量・定性データを活用してどのように事業成長に貢献できるか考える日々です。 前職ではAI PdMとして、ゲームや強化学習領域でのAI活用を推進していました(興味ある方はGDC2019での発表や各種スライド slideshare / speakerdeck をご覧ください)。直近はがっつりAIに関わっているわけではありませんが、趣味で推薦×強化学習分野のサーベイをしていたら面白い話題がたくさんあったので、それらの中からYouTub

                                                          YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜
                                                        • 強化学習の基礎まとめ - Qiita

                                                          こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで学ぶ強化学習 これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ 今さら聞けない強化学習(1):状態価値関数とBellman方程式 全体図 動的計画法 動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。 方策反復法と価値反復法があります。 環境のモデルが分かっていることは少ないので、あまり使われません。 モンテカルロ法 動的計画法では環境のモデルが完全にわかっている状態

                                                            強化学習の基礎まとめ - Qiita
                                                          • CaffeでDeep Q-Networkを実装して深層強化学習してみた - 学生時代に頑張ったことが何もない

                                                            概要 深層学習フレームワークCaffeを使って,Deep Q-Networkという深層強化学習アルゴリズムをC++で実装して,Atari 2600のゲームをプレイさせてみました. Deep Q-Network Deep Q-Network(以下DQN)は,2013年のNIPSのDeep Learning Workshopの"Playing Atari with Deep Reinforcement Learning"という論文で提案されたアルゴリズムで,行動価値関数Q(s,a)を深層ニューラルネットワークにより近似するという,近年の深層学習の研究成果を強化学習に活かしたものです.Atari 2600のゲームに適用され,既存手法を圧倒するとともに一部のゲームでは人間のエキスパートを上回るスコアを達成しています.論文の著者らは今年Googleに買収されたDeepMindの研究者です. NIPS

                                                              CaffeでDeep Q-Networkを実装して深層強化学習してみた - 学生時代に頑張ったことが何もない
                                                            • RLHF (人間のフィードバックからの強化学習) の図解|npaka

                                                              以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

                                                                RLHF (人間のフィードバックからの強化学習) の図解|npaka
                                                              • 東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai

                                                                サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                                  東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai
                                                                • 強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング – DeNA

                                                                  AI(人工知能)が、人間の仕事を代替する。 近年、そんなフレーズが各種メディアに登場するようになりました。今後10~20年で、今存在しているさまざまな仕事は自動化されると考えられています。そして、その波は“ゲーム開発”にも訪れているのです。 DeNAでは、オセロとトレーディングカードゲームの要素を組み合わせた対戦ゲームアプリ『逆転オセロニア』のキャラクターバランス調整を、AIによってサポートすべく研究を続けています。今回は、本プロジェクトを推進し研究・開発に“フルスイング”してきたエンジニアであるAIシステム部AI研究開発グループの奥村エルネスト純、甲野佑、田中一樹に、彼らが成し遂げようとしている未来について聞きました。 「世界的に見ても前例がない領域」に挑むやりがい ――なぜ、オセロニアのバランス調整にAIを導入しようとしているのでしょうか? 奥村:ゲームのバランス調整をより効率よく正確

                                                                    強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング – DeNA
                                                                  • 強化学習入門 ~これから強化学習を学びたい人のための基礎知識~ - Platinum Data Blog by BrainPad

                                                                    こんにちは。アナリティクスサービス本部の仲田です。 本日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。 強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alphago-vs-lee-sedol-round-3-live-right-now/より) 「強化学習(Reinforcement Learning)」と呼ばれる学問分野をご存知でしょうか。 機械学習にはさまざまな分類方法がありますが、「教師付き学習(Supervised Learning)」「教師なし学習(Unsupervised Learning)」「強化学習」という3種類に分ける考え方があります。 この考え方では、強化学習は機械学習のひとつの大きな分野をなすということになります。 (画像は UCL Course on

                                                                      強化学習入門 ~これから強化学習を学びたい人のための基礎知識~ - Platinum Data Blog by BrainPad
                                                                    • 強化学習 - 星の本棚

                                                                      機械学習の一種である強化学習について勉強したことをまとめたノート(忘備録)です。 尚、ここで取り上げている各種強化学習手法の一部の手法の実装コードは、以下のレポジトリに保管してあります。 github.com 目次 [Contents] 強化学習のモデル化 エージェントと環境の相互作用 環境のマルコフ性 エピソード的タスクと連続タスク マルコフ決定過程(MDP) 価値関数 状態価値関数 行動価値関数 状態価値関数と行動価値関数の関係 ベルマン方程式 ベルマン最適方程式とグリーディーな選択 代表的な古典的強化学習手法の比較 強化学習における動的計画法(DP法) 反復法による近似解 方策評価 反復方策評価 方策改善 方策改善定理 方策改善定理とグリーディー方策 方策改善のアルゴリズム 方策反復法 [policy iteration] 価値反復法 [value iteration] 一般化方策反

                                                                        強化学習 - 星の本棚
                                                                      • 文系でも分かる「機械学習」のススメ 教師あり/なし、強化学習を解説

                                                                        最近よく耳にするようになった「機械学習」という言葉。ビジネスで活用するには機械学習でできることとその限界を理解しておく必要があるだろう。 前回記事では、機械学習には大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類が存在することを解説した。今回はこの3つについて、もう少し詳しく整理してみたい。 連載:よくわかる人工知能の基礎知識 いまや毎日のようにAI(人工知能)の話題が飛び交っている。しかし、どれほどの人がAIについて正しく理解し、他人に説明できるほどの知識を持っているだろうか。本連載では「AIとは何か」といった根本的な問いから最新のAI活用事例まで、主にビジネスパーソン向けに“いまさら聞けないAIに関する話”を解説していく。 (編集:ITmedia村上) 機械学習の種類 人間でも、何の手掛かりもなしに学習することは不可能だ。ちょうどいま皆さんがしているように、何らかの解説

                                                                          文系でも分かる「機械学習」のススメ 教師あり/なし、強化学習を解説
                                                                        • IT特化型20日間リスニング強化学習サイトListen-ITオープンしました

                                                                          何年も前からひっそり作り続けてきたオンライン学習サイトのListen-ITがついに完成しました。「読んでわかる英語は聞いてわかるようにする」のがゴール。IT関係の仕事で英語を使えるようになりたい人を対象に、IT関連の素材を使っています。 読んで分かる英語が、聞いたらわからないのは当然だ、と思っていませんか?でも、全然当然じゃありません。「聞く練習」をしなければ聞けるようにならない、というだけのこと。というわけで、私自身が「こういうふうに英語を教えて欲しかった」と思う内容になっています。 サイト構築にあたっては、北米大陸に住むエンジニア・デザイナーの皆さんの力を結集しました。 内容は次の3つからなっています。 1)ポッドキャスト IT関係の著名人のスピーチから10秒ほどを切り取って、その聞き取り方を説明しつつ、聞きながら自分でも口にする「シャドーイング」、聞き終わったところで文章を口にする「

                                                                          • 逆強化学習を理解する - Qiita

                                                                            一般的な強化学習では、エージェントが環境からの報酬を得ることで最適な行動を獲得します。しかし現実の問題においては、この報酬を設計することが困難な場合があります。 例えば運転技術を獲得する場合、うまい運転というのはただ目的地に速く着くだけでなく、急発進・急ブレーキしない、混んでなさそうな道を選ぶなど実際の報酬関数として考慮しづらい要素が存在します。 逆強化学習ではエキスパートによる行動から報酬を推定する ことによって、このような表現しにくい報酬を求めることができます。 逆強化学習の手法 この記事では逆強化学習の手法としてよく取り上げられる手法の中で以下の3つについて解説したいと思います。 線形計画法を用いた逆強化学習 Maximum Entropy IRL Maximum Entropy Deep IRL マルコフ決定過程(MDP) 逆強化学習に入る前にまずMDPについて説明します。 マルコ

                                                                              逆強化学習を理解する - Qiita
                                                                            • 強化学習+為替トレード戦略 – Momentum

                                                                              概要 ・強化学習をトレード戦略に適用するとこんな感じになるのかなというテスト。我流なので何やってんのpgrという場合も生暖かい眼で何卒よろしくお願いします(ヘッジ文言^^) ・モンテカルロをぶん回すことでQ-valueを推定します。 ・今回は簡単のために初回訪問モンテカルロ(逐一訪問はめんどいのお) ・モメンタム戦略を試すため、状態として過去の自分自身のシャープレシオ(1ヶ月と3ヶ月)を使用しています。 ・行動決定にはEpsilon-Greedy法 初回訪問モンテカルロ いかんせん強化学習の学習自体が何をどう考えて良いか門外漢のため五里霧中+Pythonも同じく門外漢のため五里霧中のため、自身の勉強方法も探索しっぱなしという^^;; これであってんのですかねえ 詳しくは参考文献[1]のP.134を見てケロというかんじなのですが、 ・現在での状態を確認(状態=過去のシャープレシオ) ↓ ・そ

                                                                                強化学習+為替トレード戦略 – Momentum
                                                                              • 強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 - - Platinum Data Blog by BrainPad

                                                                                強化学習入門の第3弾。「モンテカルロ木探索(Monte Carlo Tree Search, MCTS)」を解説するとともに、実際にAI同士で五目並べを戦わせてみました! こんにちは。アナリティクスサービス本部 AI開発部の山崎です。 昨年も強化学習界隈は盛り上がりを見せていましたが、今なお、強化学習と言えば一番にAlphaGoを思い浮かべる人も多いのではないでしょうか。昨年、AlphaGoZeroという進化バージョンが発表され、一切のお手本を用いずに従来バージョンより強いということが話題になりました。(それまでのAlphaGoは、人のお手本をある程度学び、その後勝手に学んでいくものでした) さらに、AlphaGoZeroを一般化したアルゴリズムに修正したAlphaZeroが登場し、チェスや将棋でもその時点での最強ソフトを打ち負かしています。 今回は、AlphaGoやAlphaGoZero

                                                                                  強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 - - Platinum Data Blog by BrainPad
                                                                                • GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。

                                                                                  3つの要点 ✔️その1 DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その2 モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その3 囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成 続きを読むには (3155文字画像6枚) AI-SCHOLARに 登録いただく必要があります。 1分で無料で簡単登録する または ログイン

                                                                                    GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。