並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 163件

新着順 人気順

強化学習の検索結果1 - 40 件 / 163件

強化学習に関するエントリは163件あります。 機械学習AI学習 などが関連タグです。 人気エントリには 『AIにかくれんぼをさせたら徐々に高度な戦略を編み出し、人間には思いつかないような作戦を取るようになった「腹抱えて笑った」』などがあります。
  • AIにかくれんぼをさせたら徐々に高度な戦略を編み出し、人間には思いつかないような作戦を取るようになった「腹抱えて笑った」

    小猫遊りょう(たかにゃし・りょう) @jaguring1 AIにかくれんぼをさせたら、徐々に高度な戦略を編み出していって、あるとき、隠れる側が鬼を隠すゲームになってるの、何度見ても笑う twitter.com/OpenAI/status/… 2019-09-20 15:01:16 OpenAI @OpenAI Wondering why the hiders did not cage in the seekers instead of building their own fort? In one environment variant where hiders have to protect glowing orbs, that's exactly what they learned to do! pic.twitter.com/yifS7rI4eR 2019-09-20 07:39:0

      AIにかくれんぼをさせたら徐々に高度な戦略を編み出し、人間には思いつかないような作戦を取るようになった「腹抱えて笑った」
    • 誰でもわかる強化学習

      本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強化学習が使用(RLHF等)され,さらに強化学習をLLMに本格的に組み込んだAI( GoogleのGemini,OpenAIのQ*等)の出現が予想されることから,�強化学習の知識の普及のため公開しました.

        誰でもわかる強化学習
      • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

        こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

          自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
        • 強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

          はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は意外と多いのではないかと思われます。これを知っていようが知っていまいが、正直世の中の便利なフレームワークを活用すれば強化学習を実行することは可能であるためだと推測されます。 しかし、ある種の出発点になっているはずの基礎方程式を無視して、ガチャガチャ色々試してみても、なんだかフワついたままでモヤモヤしてしまうのではないでしょうか。少なくとも自分はそうです。 なので今回はベルマン方程式を基本から丁寧に解説していきたいと思います。 ベルマン方程式の概要 細かい話をする前に、ベルマン方程式がど

            強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
          • AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃

            AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学

              AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
            • ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

              RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに

                ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
              • LLM時代の強化学習 - どこから見てもメンダコ

                強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

                  LLM時代の強化学習 - どこから見てもメンダコ
                • サッカーを強化学習する - 思考の本棚

                  はじめに この記事は強化学習苦手の会Advent Calenderの12日目の記事です。 私は11月末までKaggle上で開催されていたGoogle Research Football with Manchester City F.C.に参加していました。このコンペはGoogle Researchが用意したサッカーゲーム上でサッカーエージェント(プレイヤー)を作成し、その強さを競うというものです。 私はhigeponさんとチームを組ませていただき、強化学習アプローチでコンペ開催から終了まで取り組みました。そこでサッカーエージェントを強化学習で育成する際に工夫した点や苦労した点を共有できればと思います。 kaggle: Google Research Football competition www.kaggle.com GitHub: Google Research Football gi

                    サッカーを強化学習する - 思考の本棚
                  • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

                    東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

                      強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
                    • ChatGPT 人間のフィードバックから強化学習した対話AI

                      東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です. 特に以下のような話題,技術について解説しています. ・ChatGPTの凄さ ・ChatGPTの技術 ・言語モデル ・プロンプト ・GPTとは ・InstructGPT ・言語モデルと強化学習Read less

                        ChatGPT 人間のフィードバックから強化学習した対話AI
                      • いろんなバンディットアルゴリズムを理解しよう - Qiita

                        今回は、何も知らないところからバンディットアルゴリズムを学びました。 シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。 学んでいて疑問に思ったことを解消しつつ記載しています。 ソースコード https://github.com/birdwatcherYT/bandit 対象読者 バンディットアルゴリズムを理解して実装したい人 ユーザーごとにカスタマイズしたバンディットを理解して実装したい人(Contextual Bandit) 順序を最適化するバンディットを使いたい人(Cascading Bandit) バンディットアルゴリズム バンディットの問題設定を説明します。 スロットマシンN台がある スロットマシンの腕を引くと報酬がもらえる 累積報酬を最大化したい バンディットアル

                          いろんなバンディットアルゴリズムを理解しよう - Qiita
                        • YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜

                          はじめにこの記事は「eureka Advent Calendar 2019」24日目の記事です。 こんにちは、Data Analystの @pacocat です! 私はeurekaには2019年11月に入社したばかりなのですが、毎日楽しく仕事させてもらっています。最近はプロダクト開発のための定性調査の仕組みづくりを手伝ったり、事業分析や組織開発をしていたりと、様々な定量・定性データを活用してどのように事業成長に貢献できるか考える日々です。 前職ではAI PdMとして、ゲームや強化学習領域でのAI活用を推進していました(興味ある方はGDC2019での発表や各種スライド slideshare / speakerdeck をご覧ください)。直近はがっつりAIに関わっているわけではありませんが、趣味で推薦×強化学習分野のサーベイをしていたら面白い話題がたくさんあったので、それらの中からYouTub

                            YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜
                          • 強化学習の基礎まとめ - Qiita

                            こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで学ぶ強化学習 これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ 今さら聞けない強化学習(1):状態価値関数とBellman方程式 全体図 動的計画法 動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。 方策反復法と価値反復法があります。 環境のモデルが分かっていることは少ないので、あまり使われません。 モンテカルロ法 動的計画法では環境のモデルが完全にわかっている状態

                              強化学習の基礎まとめ - Qiita
                            • RLHF (人間のフィードバックからの強化学習) の図解|npaka

                              以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

                                RLHF (人間のフィードバックからの強化学習) の図解|npaka
                              • 東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai

                                サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                  東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai
                                • ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開

                                  OpenAIが提供する「ChatGPT」などのチャットAIは要約やコーディング、翻訳などを人間の専門家以上の精度で実行できると報告されています。しかしチャットAIの訓練に必要な人間のフィードバックに基づいた強化学習(RLHF)を実行するエンドツーエンドなパイプラインが存在せず、最先端のチャットAIの訓練を行うことは困難でした。しかしMicrosoftが発表した「DeepSpeed-Chat」では誰でもChatGPTのようなモデルを作成可能です。 DeepSpeed/blogs/deepspeed-chat/japanese at master · microsoft/DeepSpeed · GitHub https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese これまでChatGPTのよ

                                    ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開
                                  • GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。

                                    3つの要点 ✔️その1 DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その2 モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その3 囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成 続きを読むには (3155文字画像6枚) AI-SCHOLARに 登録いただく必要があります。 1分で無料で簡単登録する または ログイン

                                      GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。
                                    • エクストリーム「人類最強ボードゲームAI」AlphaZeroアルゴリズム入門 - Qiita

                                      はじめに 僕が、この本に出会ったのは、かれこれ1ヶ月前のことになる。 それまでは、自分は「AlphaZero」のAの字も知らない「AlphaZero童貞」だった。 AlphaZero 深層学習・強化学習・探索 人工知能プログラミング実践入門 この本にであって、気づいたらAlaphaZeroを自分で実装するところまでいけた! わかりやすい、大変オススメの本です。 (※この記事の図は、この本から引用しています。) この記事を読むことで、 「AlphaZeroのアルゴリズム概要はつかめた。」 というところまで、噛み砕いてエクストリームに説明できればと思います。(中田敦彦風) AlphaZeroのすごいところ まず、AlphaZeroをかいつまんで話すと ルールを与えるだけで、自分のコピーとひたすら対戦を繰り返し勝手に学習して、進化していく(強化学習と呼びます) いろんなゲームに転用可能 十分に学

                                        エクストリーム「人類最強ボードゲームAI」AlphaZeroアルゴリズム入門 - Qiita
                                      • 【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選 - Qiita

                                        はじめに 今回は強化学習編として、Transformer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します!著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください! CoBERL: Contrastive BERT for Reinforcement Learning 実装のURL:https://github.com/deepmind/dm_control 強化学習における新たなエージェント「Contrastive BERT for Reinforce

                                          【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選 - Qiita
                                        • Control as Inference (強化学習とベイズ統計)

                                          東京大学松尾研究室 強化学習サマースクール2020 第5回 https://deeplearning.jp/reinforcement_cource-2020s/

                                            Control as Inference (強化学習とベイズ統計)
                                          • 強化学習における好奇心

                                            【2020年アップデート版】 強化学習では,環境で得られる報酬がスパースである場合,うまく学習することができない.この問題を解決するための手法として,強化学習のエージェントに「好奇心」を与える研究が注目されている.本スライドでは,深層強化学習の登場以降に発表された「好奇心」を利用した強化学習の研究をまとめた.特に主要ベンチマークであるMontezuma's Revengeで高いパフォーマンスを発揮したアルゴリズムについて詳しく解説する.また,「好奇心」による探索を報酬がスパースな場合以外の強化学習に適用した場合の最新研究についても紹介する. 現在は,本資料の修正・アップデート版を以下で公開しています. 【強化学習における好奇心】 https://www.slideshare.net/ShotaImai3/curiosity-reinforcement-learning-238344056

                                              強化学習における好奇心
                                            • 強化学習を手を動かして学ぶ『Pythonで学ぶ強化学習』

                                              機械学習スタートアップシリーズ Pythonで学ぶ強化学習 入門から実践まで (KS情報科学専門書) 目次 目次 はじめに 感想 読了メモ Day1 Day2 Day3 Day4 Day5 強化学習の問題点1 強化学習の問題点2 強化学習の問題点3 Day6 Day7 『Pythonで学ぶ強化学習』におすすめの副読素材 参考資料 MyEnigma Supporters はじめに 下記の通り、先日『Pythonで学ぶ強化学習』の著者の方々から、 献本をいただきました。 再び献本を頂きました😲『Pythonで学ぶ強化学習』の関係者の方々、ありがとうございます。機械学習は正直あまり詳しくないので、これを読んでAIエンジニアになれるように頑張ります。全編カラーで、コードも沢山あっていい感じです。じっくり読んで書評させて頂きます😀 #python Pythonで学ぶ強化学習 -入門から実践まで-

                                              • 【入門】強化学習 - Qiita

                                                強化学習をざっと勉強した際のまとめです。 入門者の参考となれば幸いです。 強化学習とは 強化学習の位置付けはこのようになります。 【用語】 - 教師あり学習 - 教師データとして入力とその出力がある - 回帰や分類問題 - 教師なし学習 - 教師データがない - データの特徴を抽出したり、表現変換 強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の

                                                  【入門】強化学習 - Qiita
                                                • kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )

                                                  概要 現在、kaggle に Connect X という強化学習の Getting Started コンペ があります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。 こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは 強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。 教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学

                                                    kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
                                                  • 強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita

                                                    強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで,最初は強化学習の基礎の基礎の解説から,Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました.Actor-Criticについては,Q学習との比較用にA3Cあたりを少しだけ書いています.あと,最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています. 基礎の基礎 強化学習とは? 教師あり学習,教師無し学習に並ぶ,機械学習の一分野. 端的に言うと,エージェントと呼ばれる行動主体が,ある環境のなかで得られる報酬を最大化する最適化問題. ただし,報酬を得るためにどうしたらよいかというのは非自明な場合が多く,また,報酬のみではスパースで扱いにくいので,途中の過程ででてくる状態や,エージェントの行動に価値を付与し,その価値を最大化する問題に

                                                      強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita
                                                    • Algorithms for Decision Making

                                                      • サマースクール'20:深層強化学習 | Deep Learning JP

                                                        本講座は、Deep Learningを用いた強化学習に特化した全6回の講義です。東京大学でDeep Learning基礎講座を公開してきた松尾研究室が、深層学習の基礎を習得済みの学生を対象として開講するものです。 深層学習を用いた強化学習の研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指します。離散制御や連続値制御、モデルベース学習などの強化学習の基礎的なアルゴリズムから、sim2real、模倣学習、Control as Inference、世界モデル、まで深層強化学習の種々のトピックをカバーします。講義のみでなく、実践的な演習を通して、効率的に強化学習について手を動かしながら技術を深く理解します。

                                                          サマースクール'20:深層強化学習 | Deep Learning JP
                                                        • 【DeepRacer】ワークショップの超丁寧な日本語資料で強化学習を体験する #AWSSummit

                                                          現在幕張で開催されているAWS Summit Tokyo 2019では、AWS DeepRacerリーグも同時に開催されていて、アツい戦いが繰り広げられています。 DeepRacer リーグの Summit サーキット 始まりました、AWSの祭典AWS Summit Tokyo!クラスメソッドは今回も全力でブース展開や社長登壇、怒涛のブログ更新、あとAWS DeepRacerリーグの優勝(目標)などを行う予定です。情報まとめサイトも公開中! #AWSSummit https://t.co/lf9Pc4Le6R pic.twitter.com/XBMS2wnW3p — クラスメソッド&Developers.IO (@classmethod) June 12, 2019 DeepRacerは、機械学習を1/18スケールの実車を使って学んでしまおうという、なんともロマン溢れる粋なサービスですが、

                                                            【DeepRacer】ワークショップの超丁寧な日本語資料で強化学習を体験する #AWSSummit
                                                          • 【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ

                                                            こんにちは。dcm_chidaです。 ドコモ開発者ブログ初投稿です。よろしくお願いします。 はじめに みなさん「NeurIPS」と言う国際会議名を聞いたことがあるでしょうか? 機械学習・データ分析の分野では毎年たくさんの国際会議が開催されていますが、NeurIPSはその中でも歴史あるトップカンファレンスの一つです。世界中の研究機関や企業から最先端の論文が投稿されます。 NTTドコモR&DではKDDやNeurIPSといった国際会議の論文読み会を不定期に開催しております。「今年もNeurIPSの論文読み会やるかー」と思って、会議そのもの概要や最新の研究動向などを調べてみたので、ブログ記事にまとめようと思います。 論文そのものの解説記事ではないのでご注意ください。 1分で分かるNeurIPS2022の概要まとめ 会議名称 The Conference and Workshop on Neural

                                                              【NeurIPS2022】過去17年間の機械学習・AI研究のトレンドを調査してみた - ENGINEERING BLOG ドコモ開発者ブログ
                                                            • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary

                                                              この記事について 深層強化学習を利用してAI RC Carの走行を学習させるソフトウェアをGithub上で公開しています。learnign_racerと命名しました。2020年4月29日の時点でのバージョンはv1.0.0です。この記事ではこのソフトウェアについて紹介していきます。 github.com なお、NVIDIAのJetson Community Projectsのページでも紹介されています。 developer.nvidia.com learning_racerの概要 このソフトウェアは10分から15分程度の学習時間で、コースに沿って走行する方法を獲得することができます。従来のAI RC Carでは人間のお手本操作をDNNに覚えこませる手法が一般的です1。ですが、本手法は教師なし学習の手法である強化学習をベースとしているため、教師データとなる人間のお手本操作は必要ありません。さら

                                                                Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary
                                                              • GoogleがサッカーゲームAIを研究中。強化学習でAIはどこまでうまくなれるか? - AUTOMATON

                                                                GoogleのAI研究チームは6月7日、サッカーゲームをプレイするAIについての研究内容をブログにて公表した。AI同士をサッカーシミュレーションゲーム上で対戦させ、AIのテストを行っているようだ。また、AIのテスト環境や学習環境などが含まれる「Google Research Football Environment」のベータ版を、オープンソースでGithub上に公開している。 公開された動画では、サッカーコートを真横から見たゲーム画面が表示される。『FIFA』や『ウイニングイレブン』スタイルのサッカーゲームのように見える。プレイ画面では、ゲーム内の選手たちがボールを追って走り回り、小気味よいプレイを見せている。一見するとプレイヤーたちによるプレイ動画のように見えるが、しかしこれは人間と人間の対戦動画ではない。すべての選手がAIによって操作されているAI同士の対戦動画だ。パスを出し、シュート

                                                                  GoogleがサッカーゲームAIを研究中。強化学習でAIはどこまでうまくなれるか? - AUTOMATON
                                                                • 制御工学者のための強化学習入門

                                                                  Online ISSN : 1883-8170 Print ISSN : 0453-4662 ISSN-L : 0453-4662

                                                                  • ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita

                                                                    要点 マルチモーダル深層学習って何?Vision-Language Modelって何?という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。 マルチモーダルの時代が到来 この10年、ディープラーニングの登場により、画像の分類や、文章読解(日本語等の自然言語によるQA)などが高い精度で自動化できるようになりましたね。 しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア(マルチモーダル)の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。 シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル

                                                                      ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita
                                                                    • これから強化学習を使いたい人向け、強化学習の基礎と論文紹介 - Qiita

                                                                      実務でモデルフリー強化学習を活用しようとして勉強したことを書きます ドコモの先進技術研究所1年目の勝見と申します。今回は先輩から誘われて、アドベントカレンダーの記事の12日目を担当することになりました。本来は現在行っているデータ分析周りの業務になにか絡めて書けると良いのですが、残念ながらまだオープンにできるようなネタはありませんので、私が業務での実タスクに応用しようと検討を行っている強化学習(モデルフリー)の初学者向けの記事を自身のためのまとめも兼ねて、学習の過程で個人的に面白いなと感じたポイントを織り交ぜながら書こうと思います。 マルコフ決定過程 (Markov decision process) このあたりは多くの記事でも取り上げられているため今更感がありますが、強化学習をタスクに適用するために必要となる定式化について説明しておきます。 強化学習では取り扱う問題を、エージェントが起こし

                                                                        これから強化学習を使いたい人向け、強化学習の基礎と論文紹介 - Qiita
                                                                      • [CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介

                                                                        [CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介 ライター:大陸新秩序 2022年8月24日,ゲーム開発者向けカンファレンス「CEDEC 2022」にて,「強化学習AIを活用してゲームデザインを!:『桃太郎電鉄〜昭和 平成 令和も定番!〜』『実況パワフルサッカー』」と題されたセッションが開催された。 本セッションには,コナミデジタルエンタテインメント 技術開発部主査の岩倉宏介氏と第三制作部プログラマーの池畑 望氏,技術開発部プログラマーの宗政俊一氏の3名が登壇。ゲームデザイン分析および運営型ゲームのバランス調整に強化学習AIを活用した事例の紹介が行われたので,その内容を紹介しよう。 本セッションにおける強化学習とは まずセッションの冒頭では,AIの強化学習の解説が行われた。強化学習では,AIがゲー

                                                                          [CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介
                                                                        • 深層強化学習AI時代の”人間”の仕事

                                                                          深層強化学習AI時代の"人間"の仕事 2022.01.21 Updated by Ryo Shimizu on January 21, 2022, 07:18 am JST 2022年は、AIはあまりニュースの話題にのぼらないだろうと思う。 なぜならば、もはやAIを用いることは当たり前になってきているからだ。 バズワードとしてのAIは2021年で終わった感がある。 一方で、AIの仕事は、うまくいけばいくほど地下に潜る性質がある。 すなわち、競争相手にどうやっているかを探られないように巧妙に隠す必要があるからだ。 次にニュースになるものがあるとすれば、AIがコンシューマ製品に搭載された時だが、たとえば「スマホにAI」は既に入っているのでニュース性がない。「ゲーム機にAI」が入っているのは当たり前であり、「テレビにAI」ももはや新鮮味がない。 アカデミズムの世界では、少し前までは、「ディープラ

                                                                            深層強化学習AI時代の”人間”の仕事
                                                                          • 人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

                                                                            大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価&高速にRLHFを進めることができるツールです。 Stanford CRFM https://crfm.stanford.edu/2023/05/22/alpaca-farm.html (PDF)AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback https://tatsu

                                                                              人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される
                                                                            • 第2回 AIの強化学習の基礎を学ぼう

                                                                              AI・機械学習における「強化学習」の基礎知識と基本用語を、AWS DeepRacerの視点で解説。強化学習で特に重要な「報酬関数」については、重点的に説明する。 連載目次 AWS DeepRacerは、自律走行を行うミニカーである(前回詳しく説明した)。その走行エンジンにAI(人工知能)の機械学習モデル(より厳密には、ディープラーニングの「強化学習」と呼ばれる手法)が用いられる。強化学習(Reinforcement Learning)とは、次に取るべき行動を予測する機械学習モデルを作成するための学習方法である。DeepRacerでいえば、自動走行において「前に進むか」「右にハンドルを切るか」といった次に取るべき行動を予測するための走行エンジンを作成できるということだ。 本稿では、その強化学習の基礎について、AWS Summit Tokyo 2019で開かれた「DeepRacerワークショッ

                                                                                第2回 AIの強化学習の基礎を学ぼう
                                                                              • StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka

                                                                                以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチューニング ・RM (Reward / preference modeling) : 報酬 / 嗜好モデリング ・RLHF (Reinforcement Learning from Human Feedback) : ヒューマンフィードバックからの強化学習 「StackLLaMA」は、以下でデモを試すことができます。 ベースモデルとして「LLaMA 7B」、データセットとして「

                                                                                  StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka
                                                                                • ゼロから作るDeep Learning ❹

                                                                                  人気シリーズの第4弾。今回のテーマは強化学習です。実際のコードを提示し動かしながら学ぶという本シリーズのスタイルを踏襲し、外部ライブラリに頼らず、強化学習を支える基本的な技術やアイデアをゼロから実装しながら学びます。本書では読者が強化学習独特の理論を確実にマスターできるように、強化学習という難解なテーマの構成要素の一つひとつを「理論」と「実践」の双方から丁寧に解説します。数式だけで説明する理論書とは異なり、読者はコードを通してハッとする気づきを数多く得られるでしょう。 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の上、ご

                                                                                    ゼロから作るDeep Learning ❹

                                                                                  新着記事