並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 19 件 / 19件

新着順 人気順

強化学習の検索結果1 - 19 件 / 19件

  • 誰でもわかる強化学習

    本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強化学習が使用(RLHF等)され,さらに強化学習をLLMに本格的に組み込んだAI( GoogleのGemini,OpenAIのQ*等)の出現が予想されることから,�強化学習の知識の普及のため公開しました.

      誰でもわかる強化学習
    • ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

      RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに

        ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
      • LLM時代の強化学習 - どこから見てもメンダコ

        強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

          LLM時代の強化学習 - どこから見てもメンダコ
        • いろんなバンディットアルゴリズムを理解しよう - Qiita

          今回は、何も知らないところからバンディットアルゴリズムを学びました。 シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。 学んでいて疑問に思ったことを解消しつつ記載しています。 ソースコード https://github.com/birdwatcherYT/bandit 対象読者 バンディットアルゴリズムを理解して実装したい人 ユーザーごとにカスタマイズしたバンディットを理解して実装したい人(Contextual Bandit) 順序を最適化するバンディットを使いたい人(Cascading Bandit) バンディットアルゴリズム バンディットの問題設定を説明します。 スロットマシンN台がある スロットマシンの腕を引くと報酬がもらえる 累積報酬を最大化したい バンディットアル

            いろんなバンディットアルゴリズムを理解しよう - Qiita
          • 強化学習未経験者がテトリスの AI を作ってみた話

            はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの状態から可能な行動パターンを全てシミュレーションする 行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる 今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図 何も知らない頃は『AI ってどうやって動いてるんだ?』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測

              強化学習未経験者がテトリスの AI を作ってみた話
            • 人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

              大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価&高速にRLHFを進めることができるツールです。 Stanford CRFM https://crfm.stanford.edu/2023/05/22/alpaca-farm.html (PDF)AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback https://tatsu

                人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される
              • StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka

                以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチューニング ・RM (Reward / preference modeling) : 報酬 / 嗜好モデリング ・RLHF (Reinforcement Learning from Human Feedback) : ヒューマンフィードバックからの強化学習 「StackLLaMA」は、以下でデモを試すことができます。 ベースモデルとして「LLaMA 7B」、データセットとして「

                  StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka
                • ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita

                  この記事は自作している強化学習フレームワークの解説記事です。 はじめに 今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。 今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。 このアルゴリズムは以下の状況でかなりの精度を誇ります。 マルコフ決定過程なモデル 状態が離散で現実的な数 行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します 基本アイデア 基本的なアイデアは探索(Exploration)と活用(Exploitation)の分離です。 強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。 私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて

                    ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita
                  • ゲームAI、メタバース、スマートシティ

                    ゲームAI、メタバース、スマートシティについて解説します。

                      ゲームAI、メタバース、スマートシティ
                    • 大規模言語モデル時代のHuman-in-the-Loop機械学習

                      画像の認識・理解シンポジウム(MIRU2023)チュートリアル

                        大規模言語モデル時代のHuman-in-the-Loop機械学習
                      • AlphaDev discovers faster sorting algorithms

                        Impact AlphaDev discovers faster sorting algorithms Published 7 June 2023 Authors Daniel J. Mankowitz and Andrea Michi New algorithms will transform the foundations of computing Digital society is driving increasing demand for computation, and energy use. For the last five decades, we relied on improvements in hardware to keep pace. But as microchips approach their physical limits, it’s critical t

                          AlphaDev discovers faster sorting algorithms
                        • 大規模言語モデルと強化学習:強化学習にLLMを組み込んで実装してみた(ローカルLLM) - Qiita

                          はじめに 最近の機械学習の発展はすごいですね。 特に大規模言語モデル(LLM;Large Language Model)の発展が目覚ましく、ChatGPTをはじめ目に見える形で成果が出始めています。1 この技術の進歩に置いて行かれないようにLLMを勉強しつつ強化学習に実装してみました。 記事としては前半はLLMの利用、後半は強化学習のDQNにLLMを組み込んだ実装となります。 PythonからLLMの利用 LLMの利用はBERTでもお世話になったHugging Faceを使います。 ドキュメントがかなり充実しており、チュートリアルをベースに進めてみました。 また今回実行している環境は以下です。 OS : Windows11 Python: 3.12.2 GPU : GeForce RTX3060(memory 12GB) CUDA : 12.1.1 (Torchに合わせています) # To

                            大規模言語モデルと強化学習:強化学習にLLMを組み込んで実装してみた(ローカルLLM) - Qiita
                          • はじめての自然言語処理 DeepSpeed-Chat による RLHF の紹介 | オブジェクトの広場

                            今回は DeepSpeed-Chat による RLHF のご紹介です。正直、データセットや計算資源の都合もあり、とりあえず動かしてみました!的な話にはなりますが、RLHF の効果が実際に確認できるか見てみたいと思います。 1. はじめに 今回は DeepSpeed-Chat1 を使って RLHF を試してみたいと思います。RLHF は Reinforcement Learning from Human Feedback の略で文字通り「人からのフィードバックを用いた強化学習」ということですね。OpenAI が InstructGPT(ChatGPT の元になったモデル)2 で使ったことで注目された手法になります。 LLM がらみで何か記事にしたいと思いつつ、日々新たな LLM が発表されている昨今に、隔月&内容が実時間から月単位で遅れ気味wの本連載です。 「どうしたもんかな。。。」と悩みに

                              はじめての自然言語処理 DeepSpeed-Chat による RLHF の紹介 | オブジェクトの広場
                            • 強化学習でポケモンをプレイする - Qiita

                              久しぶりのQiita投稿です.現在,三菱UFJフィナンシャル・グループの戦略子会社であるJapan Digital Design株式会社でリサーチャーをしています.こちらは,Japan Digital Design Advent Calendar 2023 の7日目の記事になります! 本記事では,「強化学習を使ってポケモンをプレイする動画」についてご紹介させていただきます! ※ 動画内容の切り抜き利用につきましては,Peter Whidden氏の許可を頂いております. ※ 本記事では,ポケモンをプレイするための技術を解説していきますが,動画で見た方が面白いので,ご興味のある方はぜひご覧になってみてください! 導入 みなさま強化学習(reinforcement learning)をご存知でしょうか? 強化学習とは,機械学習の手法1つで,エージェント(AI)が環境とのやり取りを通じながら,累積

                                強化学習でポケモンをプレイする - Qiita
                              • RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習)とは?

                                RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習)とは?:AI・機械学習の用語辞典 用語「RLHF」について説明。人間のフィードバックを使ってAIモデルを強化学習する手法を指す。OpenAIのChatGPT/InstructGPTでは、人間の価値基準に沿うように、言語モデルをRLHFでファインチューニング(微調整)している。 連載目次 用語解説 RLHF(Reinforcement Learning from Human Feedback)とは、「人間のフィードバックからの強化学習」という名前の通り、人間の価値基準に沿うように、人間のフィードバックを使ってAI(言語)モデルを強化学習で微調整(ファインチューニング)する手法である。なお強化学習とは、フィードバック(報酬や罰)に基づいて学習する方法のことだ。 R

                                  RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習)とは?
                                • rinna、人間の評価を利用したGPT言語モデルの強化学習に成功|rinna株式会社

                                  日本語に特化した強化学習済み対話GPT言語モデルをオープンソースで公開 rinna株式会社(本社:東京都渋谷区、代表取締役:ジャン"クリフ"チェン、以下rinna)は、ChatGPTの学習に利用されている、人間の評価を利用したGPT言語モデルの強化学習に成功しました。そして強化学習済みの日本語に特化した対話GPT言語モデルを、オープンソースで公開したことを発表いたします。 ■ 背景 rinnaは「人とAIの共創世界」をビジョンに掲げ、人と人との間にAIが介在することによる豊かなコミュニケーションを通して、すべての人が自分らしい創造性を発揮できる社会の実現を目指しています。このビジョンの実現に向けて、AIりんなをはじめとしたAIキャラクターと人のテキスト・音声・画像を介した新しいコミュニケーションの形を提供してきました。また、誰もが気軽にAIを使える世界を目指す「AIの民主化」という考え方に

                                    rinna、人間の評価を利用したGPT言語モデルの強化学習に成功|rinna株式会社
                                  • AIだってブラフを張れる 不完全情報に対処する強化学習 - ABEJA Tech Blog

                                    はじめに ABEJAアドベントカレンダー2023の11日目の記事です。この記事では不完全情報ゲームを解くための手法であるDeepNashについて紹介します。DeepNashはMastering the game of Stratego with model-free multiagent reinforcement learning(arXiv: Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning)で提案されたモデルフリー強化学習をベースとした手法です。通常、強化学習を用いる場合エージェントが対戦相手に勝つことを目的として学習を行います。一方でDeepNashでは相手に勝つことを直接目指すのではなく、ナッシュ均衡を目指します。ナッシュ均衡を目指すことで相手がどんな手を打ったとしても

                                      AIだってブラフを張れる 不完全情報に対処する強化学習 - ABEJA Tech Blog
                                    • 日本語の対話AI、より自然に りんなが公開 - 日本経済新聞

                                      人工知能(AI)キャラクター開発を手掛けるrinna(りんな、東京・渋谷)はより自然な受け答えができる日本語に特化した対話型の生成AIを公開した。質問に対する回答に点数をつけることで、良い回答の傾向をAIに学ばせた。生成AIにおける同社の存在感を高めるとともに、AIキャラクターの市場拡大につなげる。性能を左右するパラメーター数が36億のAIを改良し、新しい言語モデルを開発した。同社の従来モデル

                                        日本語の対話AI、より自然に りんなが公開 - 日本経済新聞
                                      • 【Unreal Engine】強化学習を行う方法を調べてみた - Qiita

                                        目次 1. Unreal Engine上で強化学習を行いたい理由 2. 各種手法の比較 2-1. 内部実行系の手法 以下の4つの方法について紹介します。 ・Python Editor Script Plugin ・UneralEnginePython ・Python Foundation Packages ・Neural Network Inference 2-2. 外部通信系の手法 以下の4つの方法について紹介します。 ・Mind maker ・UE4ML ・ML Adapter ・Learning Agent 3. 結局何を使えばいいのか ※記事中のUEはUnreal Engineの略です。 1. Unreal Engine上で強化学習を行いたい理由 強化学習は、機械学習の一分野であり、エージェントが環境と相互作用しながら、試行錯誤を通じて最適な行動を学習する手法です。ゲームエンジンと

                                          【Unreal Engine】強化学習を行う方法を調べてみた - Qiita
                                        1