並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 159件

新着順 人気順

強化学習の検索結果1 - 40 件 / 159件

  • 強化学習未経験者がテトリスの AI を作ってみた話

    はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの状態から可能な行動パターンを全てシミュレーションする 行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる 今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図 何も知らない頃は『AI ってどうやって動いてるんだ?』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測

      強化学習未経験者がテトリスの AI を作ってみた話
    • 大規模言語モデルと強化学習:強化学習にLLMを組み込んで実装してみた(ローカルLLM) - Qiita

      はじめに 最近の機械学習の発展はすごいですね。 特に大規模言語モデル(LLM;Large Language Model)の発展が目覚ましく、ChatGPTをはじめ目に見える形で成果が出始めています。1 この技術の進歩に置いて行かれないようにLLMを勉強しつつ強化学習に実装してみました。 記事としては前半はLLMの利用、後半は強化学習のDQNにLLMを組み込んだ実装となります。 PythonからLLMの利用 LLMの利用はBERTでもお世話になったHugging Faceを使います。 ドキュメントがかなり充実しており、チュートリアルをベースに進めてみました。 また今回実行している環境は以下です。 OS : Windows11 Python: 3.12.2 GPU : GeForce RTX3060(memory 12GB) CUDA : 12.1.1 (Torchに合わせています) # To

        大規模言語モデルと強化学習:強化学習にLLMを組み込んで実装してみた(ローカルLLM) - Qiita
      • ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita

        この記事は自作している強化学習フレームワークの解説記事です。 はじめに 今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。 今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。 このアルゴリズムは以下の状況でかなりの精度を誇ります。 マルコフ決定過程なモデル 状態が離散で現実的な数 行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します 基本アイデア 基本的なアイデアは探索(Exploration)と活用(Exploitation)の分離です。 強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。 私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて

          ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita
        • AIだってブラフを張れる 不完全情報に対処する強化学習 - ABEJA Tech Blog

          はじめに ABEJAアドベントカレンダー2023の11日目の記事です。この記事では不完全情報ゲームを解くための手法であるDeepNashについて紹介します。DeepNashはMastering the game of Stratego with model-free multiagent reinforcement learning(arXiv: Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning)で提案されたモデルフリー強化学習をベースとした手法です。通常、強化学習を用いる場合エージェントが対戦相手に勝つことを目的として学習を行います。一方でDeepNashでは相手に勝つことを直接目指すのではなく、ナッシュ均衡を目指します。ナッシュ均衡を目指すことで相手がどんな手を打ったとしても

            AIだってブラフを張れる 不完全情報に対処する強化学習 - ABEJA Tech Blog
          • 強化学習でポケモンをプレイする - Qiita

            久しぶりのQiita投稿です.現在,三菱UFJフィナンシャル・グループの戦略子会社であるJapan Digital Design株式会社でリサーチャーをしています.こちらは,Japan Digital Design Advent Calendar 2023 の7日目の記事になります! 本記事では,「強化学習を使ってポケモンをプレイする動画」についてご紹介させていただきます! ※ 動画内容の切り抜き利用につきましては,Peter Whidden氏の許可を頂いております. ※ 本記事では,ポケモンをプレイするための技術を解説していきますが,動画で見た方が面白いので,ご興味のある方はぜひご覧になってみてください! 導入 みなさま強化学習(reinforcement learning)をご存知でしょうか? 強化学習とは,機械学習の手法1つで,エージェント(AI)が環境とのやり取りを通じながら,累積

              強化学習でポケモンをプレイする - Qiita
            • LLM時代の強化学習 - どこから見てもメンダコ

              強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

                LLM時代の強化学習 - どこから見てもメンダコ
              • 誰でもわかる強化学習

                本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強化学習が使用(RLHF等)され,さらに強化学習をLLMに本格的に組み込んだAI( GoogleのGemini,OpenAIのQ*等)の出現が予想されることから,�強化学習の知識の普及のため公開しました.

                  誰でもわかる強化学習
                • いろんなバンディットアルゴリズムを理解しよう - Qiita

                  今回は、何も知らないところからバンディットアルゴリズムを学びました。 シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。 学んでいて疑問に思ったことを解消しつつ記載しています。 ソースコード https://github.com/birdwatcherYT/bandit 対象読者 バンディットアルゴリズムを理解して実装したい人 ユーザーごとにカスタマイズしたバンディットを理解して実装したい人(Contextual Bandit) 順序を最適化するバンディットを使いたい人(Cascading Bandit) バンディットアルゴリズム バンディットの問題設定を説明します。 スロットマシンN台がある スロットマシンの腕を引くと報酬がもらえる 累積報酬を最大化したい バンディットアル

                    いろんなバンディットアルゴリズムを理解しよう - Qiita
                  • 大規模言語モデル時代のHuman-in-the-Loop機械学習

                    画像の認識・理解シンポジウム(MIRU2023)チュートリアル

                      大規模言語モデル時代のHuman-in-the-Loop機械学習
                    • はじめての自然言語処理 DeepSpeed-Chat による RLHF の紹介 | オブジェクトの広場

                      今回は DeepSpeed-Chat による RLHF のご紹介です。正直、データセットや計算資源の都合もあり、とりあえず動かしてみました!的な話にはなりますが、RLHF の効果が実際に確認できるか見てみたいと思います。 1. はじめに 今回は DeepSpeed-Chat1 を使って RLHF を試してみたいと思います。RLHF は Reinforcement Learning from Human Feedback の略で文字通り「人からのフィードバックを用いた強化学習」ということですね。OpenAI が InstructGPT(ChatGPT の元になったモデル)2 で使ったことで注目された手法になります。 LLM がらみで何か記事にしたいと思いつつ、日々新たな LLM が発表されている昨今に、隔月&内容が実時間から月単位で遅れ気味wの本連載です。 「どうしたもんかな。。。」と悩みに

                        はじめての自然言語処理 DeepSpeed-Chat による RLHF の紹介 | オブジェクトの広場
                      • 【Unreal Engine】強化学習を行う方法を調べてみた - Qiita

                        目次 1. Unreal Engine上で強化学習を行いたい理由 2. 各種手法の比較 2-1. 内部実行系の手法 以下の4つの方法について紹介します。 ・Python Editor Script Plugin ・UneralEnginePython ・Python Foundation Packages ・Neural Network Inference 2-2. 外部通信系の手法 以下の4つの方法について紹介します。 ・Mind maker ・UE4ML ・ML Adapter ・Learning Agent 3. 結局何を使えばいいのか ※記事中のUEはUnreal Engineの略です。 1. Unreal Engine上で強化学習を行いたい理由 強化学習は、機械学習の一分野であり、エージェントが環境と相互作用しながら、試行錯誤を通じて最適な行動を学習する手法です。ゲームエンジンと

                          【Unreal Engine】強化学習を行う方法を調べてみた - Qiita
                        • ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

                          RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに

                            ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
                          • AlphaDev discovers faster sorting algorithms

                            Impact AlphaDev discovers faster sorting algorithms Published 7 June 2023 Authors Daniel J. Mankowitz and Andrea Michi New algorithms will transform the foundations of computing Digital society is driving increasing demand for computation, and energy use. For the last five decades, we relied on improvements in hardware to keep pace. But as microchips approach their physical limits, it’s critical t

                              AlphaDev discovers faster sorting algorithms
                            • RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習)とは?

                              RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習)とは?:AI・機械学習の用語辞典 用語「RLHF」について説明。人間のフィードバックを使ってAIモデルを強化学習する手法を指す。OpenAIのChatGPT/InstructGPTでは、人間の価値基準に沿うように、言語モデルをRLHFでファインチューニング(微調整)している。 連載目次 用語解説 RLHF(Reinforcement Learning from Human Feedback)とは、「人間のフィードバックからの強化学習」という名前の通り、人間の価値基準に沿うように、人間のフィードバックを使ってAI(言語)モデルを強化学習で微調整(ファインチューニング)する手法である。なお強化学習とは、フィードバック(報酬や罰)に基づいて学習する方法のことだ。 R

                                RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックからの強化学習)とは?
                              • ゲームAI、メタバース、スマートシティ

                                ゲームAI、メタバース、スマートシティについて解説します。

                                  ゲームAI、メタバース、スマートシティ
                                • 日本語の対話AI、より自然に りんなが公開 - 日本経済新聞

                                  人工知能(AI)キャラクター開発を手掛けるrinna(りんな、東京・渋谷)はより自然な受け答えができる日本語に特化した対話型の生成AIを公開した。質問に対する回答に点数をつけることで、良い回答の傾向をAIに学ばせた。生成AIにおける同社の存在感を高めるとともに、AIキャラクターの市場拡大につなげる。性能を左右するパラメーター数が36億のAIを改良し、新しい言語モデルを開発した。同社の従来モデル

                                    日本語の対話AI、より自然に りんなが公開 - 日本経済新聞
                                  • rinna、人間の評価を利用したGPT言語モデルの強化学習に成功|rinna株式会社

                                    日本語に特化した強化学習済み対話GPT言語モデルをオープンソースで公開 rinna株式会社(本社:東京都渋谷区、代表取締役:ジャン"クリフ"チェン、以下rinna)は、ChatGPTの学習に利用されている、人間の評価を利用したGPT言語モデルの強化学習に成功しました。そして強化学習済みの日本語に特化した対話GPT言語モデルを、オープンソースで公開したことを発表いたします。 ■ 背景 rinnaは「人とAIの共創世界」をビジョンに掲げ、人と人との間にAIが介在することによる豊かなコミュニケーションを通して、すべての人が自分らしい創造性を発揮できる社会の実現を目指しています。このビジョンの実現に向けて、AIりんなをはじめとしたAIキャラクターと人のテキスト・音声・画像を介した新しいコミュニケーションの形を提供してきました。また、誰もが気軽にAIを使える世界を目指す「AIの民主化」という考え方に

                                      rinna、人間の評価を利用したGPT言語モデルの強化学習に成功|rinna株式会社
                                    • StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka

                                      以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチューニング ・RM (Reward / preference modeling) : 報酬 / 嗜好モデリング ・RLHF (Reinforcement Learning from Human Feedback) : ヒューマンフィードバックからの強化学習 「StackLLaMA」は、以下でデモを試すことができます。 ベースモデルとして「LLaMA 7B」、データセットとして「

                                        StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka
                                      • 人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

                                        大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価&高速にRLHFを進めることができるツールです。 Stanford CRFM https://crfm.stanford.edu/2023/05/22/alpaca-farm.html (PDF)AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback https://tatsu

                                          人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される
                                        • 強化学習の基礎まとめ - Qiita

                                          こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで学ぶ強化学習 これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ 今さら聞けない強化学習(1):状態価値関数とBellman方程式 全体図 動的計画法 動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。 方策反復法と価値反復法があります。 環境のモデルが分かっていることは少ないので、あまり使われません。 モンテカルロ法 動的計画法では環境のモデルが完全にわかっている状態

                                            強化学習の基礎まとめ - Qiita
                                          • RLHF (人間のフィードバックからの強化学習) の図解|npaka

                                            以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

                                              RLHF (人間のフィードバックからの強化学習) の図解|npaka
                                            • Kaggleシミュレーションコンペで強化学習に取り組むときのTips

                                              DeNA, GOのAI技術共有会で発表した資料です。 kaggleのシミュレーションコンペで強化学習に取り組む際に役立ちそうな情報をまとめたものを紹介します。

                                                Kaggleシミュレーションコンペで強化学習に取り組むときのTips
                                              • 大規模言語モデルのための強化学習|npaka

                                                以下の記事が面白かったので、軽く要約しました。 ・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いました。「教師あり学習」 (Instructionチューニング) で十分ではないでしょうか? 私は、ある程度納得のいく理論的な議論を思いつきました。そして、特にChatGPTのようなモデルには、強化学習のケースを支持するだけでなく、それを必要とする追加の論拠があることに気がつきました。この追加の議論は、OpenAIのJohn Schulmanによる講演の(前半部分で)綴られています。この投稿は、彼の主張をより多くの言葉で繰り返し、また、明確

                                                  大規模言語モデルのための強化学習|npaka
                                                • ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開

                                                  OpenAIが提供する「ChatGPT」などのチャットAIは要約やコーディング、翻訳などを人間の専門家以上の精度で実行できると報告されています。しかしチャットAIの訓練に必要な人間のフィードバックに基づいた強化学習(RLHF)を実行するエンドツーエンドなパイプラインが存在せず、最先端のチャットAIの訓練を行うことは困難でした。しかしMicrosoftが発表した「DeepSpeed-Chat」では誰でもChatGPTのようなモデルを作成可能です。 DeepSpeed/blogs/deepspeed-chat/japanese at master · microsoft/DeepSpeed · GitHub https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese これまでChatGPTのよ

                                                    ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開
                                                  • 実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている

                                                    AI開発企業のDeepMindが開発し、人間のトップ棋士を打ち負かしたことで話題を呼んだ囲碁AIの「AlphaGo」や、あらゆるボードゲームを学習できる進化版AIの「AlphaZero」のコアとなる部分が、実はひっそりとGitHubでオープンソース化されていると指摘されています。 Do you know that DeepMind has actually open-sourced the heart of AlphaGo & AlphaZero? It’s hidden in an unassuming repo called “mctx”: https://t.co/GpNtwH9BxA It provides JAX-native Monte Carlo Tree Search (MCTS) that runs on batches of inputs, in parallel, a

                                                      実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている
                                                    • カーネル法を使った強化学習のアルゴリズムの数値実験による検証 - Qiita

                                                      1. はじめに 文献[1]で、UCLK(Upper-Confidence Linear Kernel reinforcement learning)という強化学習のアルゴリズムが提案されました。このアルゴリズムには、次のような特徴があります。 (1) 状態および行動を特徴量に変換すること (2) 制御対象の動特性が特徴量の線形和に従う、と仮定すること、 (3) また、それぞれの特徴量の重み係数をオンラインで学習すること (4) 学習した動特性のモデルに基づいて、状態価値関数および行動価値関数を求めること (5) 動特性のパラメタは、観測出力の予測誤差ではなくて、状態価値関数の予測誤差に基づいて学習すること 最近提案された強化学習のアルゴリズムは、多くの場合、ニューラルネットワークを使って価値関数や方策を実装するため、コーディングにも学習の計算にも苦労していました。基底関数を使うことで、アル

                                                        カーネル法を使った強化学習のアルゴリズムの数値実験による検証 - Qiita
                                                      • Gymnasium Documentation

                                                        An API standard for reinforcement learning with a diverse collection of reference environments Gymnasium is a maintained fork of OpenAI’s Gym library. The Gymnasium interface is simple, pythonic, and capable of representing general RL problems, and has a compatibility wrapper for old Gym environments: import gymnasium as gym env = gym.make("LunarLander-v2", render_mode="human") observation, info =

                                                          Gymnasium Documentation
                                                        • 【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ

                                                          こんにちは。dcm_chidaです。 ドコモ開発者ブログ初投稿です。よろしくお願いします。 はじめに みなさん「NeurIPS」と言う国際会議名を聞いたことがあるでしょうか? 機械学習・データ分析の分野では毎年たくさんの国際会議が開催されていますが、NeurIPSはその中でも歴史あるトップカンファレンスの一つです。世界中の研究機関や企業から最先端の論文が投稿されます。 NTTドコモR&DではKDDやNeurIPSといった国際会議の論文読み会を不定期に開催しております。「今年もNeurIPSの論文読み会やるかー」と思って、会議そのもの概要や最新の研究動向などを調べてみたので、ブログ記事にまとめようと思います。 論文そのものの解説記事ではないのでご注意ください。 1分で分かるNeurIPS2022の概要まとめ 会議名称 The Conference and Workshop on Neural

                                                            【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ
                                                          • Human-Timescale Adaptation in an Open-Ended Task Space

                                                            Foundation models have shown impressive adaptation and scalability in supervised and self-supervised learning problems, but so far these successes have not fully translated to reinforcement learning (RL). In this work, we demonstrate that training an RL agent at scale leads to a general in-context learning algorithm that can adapt to open-ended novel embodied 3D problems as quickly as humans. In a

                                                            • オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ

                                                              Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transformer とは オフライン強化学習の新たなパラダイム 言語を生成するように行動を生成する 自然言語風アプローチのメリット 条件付き生成:Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer(NeurIPS 2022) Uni[Mask](NeurIPS 2022): MaskedLMの導入 GATO(2022):超汎用エー

                                                                オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
                                                              • GitHub - lucidrains/PaLM-rlhf-pytorch: Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                  GitHub - lucidrains/PaLM-rlhf-pytorch: Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM
                                                                • 強化学習を用いたレコメンドを検証してみた件 - Qiita

                                                                  はじめに 弊社では現在、レコメンドエンジンの高度化を進めています。その取組みの一貫として、強化学習を用いたレコメンドの検証を行いました。本稿ではその取り組みについて、まとめたいと思います。 強化学習とは 機械学習の分野の中でも強化学習は、教師あり学習や教師なし学習とは取り扱う問題の構造が異なります。 教師あり学習は入力と出力(正解ラベル)のペアデータを扱いますが、強化学習は教師なし学習と同様に正解ラベルは扱いません。一方で強化学習の特徴は、正解の代わりに報酬(もしくは罰)を扱います。 また、教師あり学習は入力から出力への変換方法を学習し、教師なし学習はデータに潜む構造や規則性を学習しますが、強化学習はエージェントが環境と相互作用しながら(行動を起こしながら)集めたデータ(環境の状態)を使って高い報酬を得る方策(いわゆるモデル)を学習します。 強化学習のレコメンドへの応用 ここではECサイト

                                                                    強化学習を用いたレコメンドを検証してみた件 - Qiita
                                                                  • ChatGPT 人間のフィードバックから強化学習した対話AI

                                                                    東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です. 特に以下のような話題,技術について解説しています. ・ChatGPTの凄さ ・ChatGPTの技術 ・言語モデル ・プロンプト ・GPTとは ・InstructGPT ・言語モデルと強化学習Read less

                                                                      ChatGPT 人間のフィードバックから強化学習した対話AI
                                                                    • Illustrating Reinforcement Learning from Human Feedback (RLHF)

                                                                      Illustrating Reinforcement Learning from Human Feedback (RLHF) This article has been translated to Chinese 简体中文 and Vietnamese đọc tiếng việt. Language models have shown impressive capabilities in the past few years by generating diverse and compelling text from human input prompts. However, what makes a "good" text is inherently hard to define as it is subjective and context dependent. There are

                                                                        Illustrating Reinforcement Learning from Human Feedback (RLHF)
                                                                      • CompilerGymを試してみた

                                                                        CompilerGymとは CompilerGym is a toolkit for exposing compiler optimization problems for reinforcement learning. It allows machine learning researchers to experiment with program optimization techniques without requiring any experience in compilers, and provides a framework for compiler developers to expose new optimization problems for AI. GitHub CompilerGymとは、コンパイラ最適化を強化学習の問題として扱うためのツールです。 コンパイラにつ

                                                                          CompilerGymを試してみた
                                                                        • 強化学習とは?これから学びたい人のための基礎知識や活用事例を紹介 | DOORS DX

                                                                          さまざまな企業や組織でAI導入が盛んになりつつある昨今では、AIに対してどのようにデータを学習させるべきかが課題となっています。 このような背景において、AIにデータを与えてパターンを学習させる機械学習の中で、「強化学習」を採用する現場も数多くあります。そこで今回は、強化学習の基礎知識やアルゴリズム、具体的な活用事例などについて解説します。 強化学習とは 強化学習とは、AIやコンピューターなどの「エージェント(学習者)」にデータを与えて学習させる「機械学習」の手法のひとつです。エージェントが与えられたデータを手掛かりに試行錯誤して学び、データの価値を最大化する学習方法を指しています。 ※機械学習について詳しく知りたい方は、以下の記事もあわせてご覧ください。 【関連記事】機械学習とは?3つの学習手法と知っておきたい活用事例 エージェントの学習方法には、強化学習の他に「教師あり学習」と「教師な

                                                                            強化学習とは?これから学びたい人のための基礎知識や活用事例を紹介 | DOORS DX
                                                                          • Unity でサクッと機械学習を体験してみよう【ML-Agents】 - Qiita

                                                                            「Applibot Advent Calendar 2021」 21日目の記事になります。 前日は @yucchiy_ さんの Unityでアプリ内にアセットを組み込む3つの方法 という記事でした。 はじめに 様々な場面で AI が活用されるようになってきた昨今、機械学習やら深層学習(DeepLearning)などの単語を目にする機会も増えました。興味はあるのだけれど、なんとなく難しそう、大変そう… と手が出せていない方、居るのではないでしょうか?(私です) えいやと試してみたところ、機械学習も Unity も素人の私(サーバサイドエンジニア)ですが、想像以上に簡単に、学習したモデルを動かすまでを体験することが出来ました。 備忘録代わりに手順をまとめたので、ぜひ機械学習に触れたことの無い方も手元で試してみてください。 機械学習ってこんな感じなんだ〜、というふわっとした理解が出来るかと思いま

                                                                              Unity でサクッと機械学習を体験してみよう【ML-Agents】 - Qiita
                                                                            • Discovering novel algorithms with AlphaTensor

                                                                              Research Discovering novel algorithms with AlphaTensor Published 5 October 2022 Authors Alhussein Fawzi, Matej Balog, Bernardino Romera-Paredes, Demis Hassabis, Pushmeet Kohli First extension of AlphaZero to mathematics unlocks new possibilities for research Algorithms have helped mathematicians perform fundamental operations for thousands of years. The ancient Egyptians created an algorithm to mu

                                                                                Discovering novel algorithms with AlphaTensor
                                                                              • 【強化学習編】機械学習/ディープラーニングのおすすめ論文30選 | スキルアップAI Journal

                                                                                はじめに 今回は強化学習編として、Transformer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します!著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください! また、おすすめの論文30選をまとめている下記の記事も合わせてご覧ください。 CoBERL: Contrastive BERT for Reinforcement Learning 実装のURL:https://github.com/deepmind/dm_control 強化学習における新た

                                                                                  【強化学習編】機械学習/ディープラーニングのおすすめ論文30選 | スキルアップAI Journal
                                                                                • [論文解説] 強化学習による高頻度取引戦略の構築 - Qiita

                                                                                  はじめに このアルゴリズムの最大の強みは、ローソクチャートを観測する予測と指値注文板を観測する執行戦略を分離し、強化学習によって執行戦略を強化させたところです。これは、売買決定から注文メッセージの送信、注文決定の動きに開きがあるからです。 論文の本文は以下のリンクから読めます。 データセットは一般公開されているFI-2010データセットを使用します。また、予想モデルは以下を使用します。 実装を行なった全編は以下より見ることができます。 ※環境の構築等自信がないので、修正点など是非ご指摘頂ければ幸いです。 強化学習アルゴリズム Ape-Xアルゴリズム Ape-Xは、代表的なoff-poicyであり、以下のモデルを加味したモデルです。 Double Q-learning(Double DQN) 優先度付き経験再生(Priority Experience Reply DQN) Dueling N

                                                                                    [論文解説] 強化学習による高頻度取引戦略の構築 - Qiita