並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 184件

新着順 人気順

強化学習の検索結果1 - 40 件 / 184件

  • 誰でもわかる強化学習

    本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強化学習が使用(RLHF等)され,さらに強化学習をLLMに本格的に組み込んだAI( GoogleのGemini,OpenAIのQ*等)の出現が予想されることから,�強化学習の知識の普及のため公開しました.

      誰でもわかる強化学習
    • ChatGPT�人間のフィードバックから強化学習した対話AI

      東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です. 特に以下のような話題,技術について解説しています. ・ChatGPTの凄さ ・ChatGPTの技術 ・言語モデル ・プロンプト ・GPTとは ・InstructGPT ・言語モデルと強化学習 ・RLFH

        ChatGPT�人間のフィードバックから強化学習した対話AI
      • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

        こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

          自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
        • オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

          Stability AIが、オープンソースのチャットボット 「StableVicuna」を発表 オンラインで「StableVicuna」との会話を試すことが可能 チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日(金)にオープンソースのチャットボット「StableVicuna」 を発表しました。 Announcing StableVicuna, the AI World’s First Open Source RLHF LLM Chatbot!@CarperAI (in an effort led by @phungvanduy1) is releasing an RLHF-trained version of Vicuna-13B Learn more → https://t.co/fWk3N8Njg5 pic.twitter.com/

            オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI
          • 強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

            はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は意外と多いのではないかと思われます。これを知っていようが知っていまいが、正直世の中の便利なフレームワークを活用すれば強化学習を実行することは可能であるためだと推測されます。 しかし、ある種の出発点になっているはずの基礎方程式を無視して、ガチャガチャ色々試してみても、なんだかフワついたままでモヤモヤしてしまうのではないでしょうか。少なくとも自分はそうです。 なので今回はベルマン方程式を基本から丁寧に解説していきたいと思います。 ベルマン方程式の概要 細かい話をする前に、ベルマン方程式がど

              強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
            • AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃

              AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学

                AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
              • LLM時代の強化学習 - どこから見てもメンダコ

                強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

                  LLM時代の強化学習 - どこから見てもメンダコ
                • サッカーを強化学習する - 思考の本棚

                  はじめに この記事は強化学習苦手の会Advent Calenderの12日目の記事です。 私は11月末までKaggle上で開催されていたGoogle Research Football with Manchester City F.C.に参加していました。このコンペはGoogle Researchが用意したサッカーゲーム上でサッカーエージェント(プレイヤー)を作成し、その強さを競うというものです。 私はhigeponさんとチームを組ませていただき、強化学習アプローチでコンペ開催から終了まで取り組みました。そこでサッカーエージェントを強化学習で育成する際に工夫した点や苦労した点を共有できればと思います。 kaggle: Google Research Football competition www.kaggle.com GitHub: Google Research Football gi

                    サッカーを強化学習する - 思考の本棚
                  • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

                    東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

                      強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
                    • ChatGPT 人間のフィードバックから強化学習した対話AI

                      東京大学の研究室内で,今井がChatGPTの知見を共有するために使用したスライド資料です. 特に以下のような話題,技術について解説しています. ・ChatGPTの凄さ ・ChatGPTの技術 ・言語モデル ・プロンプト ・GPTとは ・InstructGPT ・言語モデルと強化学習Read less

                        ChatGPT 人間のフィードバックから強化学習した対話AI
                      • YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜

                        はじめにこの記事は「eureka Advent Calendar 2019」24日目の記事です。 こんにちは、Data Analystの @pacocat です! 私はeurekaには2019年11月に入社したばかりなのですが、毎日楽しく仕事させてもらっています。最近はプロダクト開発のための定性調査の仕組みづくりを手伝ったり、事業分析や組織開発をしていたりと、様々な定量・定性データを活用してどのように事業成長に貢献できるか考える日々です。 前職ではAI PdMとして、ゲームや強化学習領域でのAI活用を推進していました(興味ある方はGDC2019での発表や各種スライド slideshare / speakerdeck をご覧ください)。直近はがっつりAIに関わっているわけではありませんが、趣味で推薦×強化学習分野のサーベイをしていたら面白い話題がたくさんあったので、それらの中からYouTub

                          YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜
                        • 強化学習の基礎まとめ - Qiita

                          こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで学ぶ強化学習 これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ 今さら聞けない強化学習(1):状態価値関数とBellman方程式 全体図 動的計画法 動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。 方策反復法と価値反復法があります。 環境のモデルが分かっていることは少ないので、あまり使われません。 モンテカルロ法 動的計画法では環境のモデルが完全にわかっている状態

                            強化学習の基礎まとめ - Qiita
                          • RLHF (人間のフィードバックからの強化学習) の図解|npaka

                            以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

                              RLHF (人間のフィードバックからの強化学習) の図解|npaka
                            • 東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai

                              サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai
                              • 文系でも分かる「機械学習」のススメ 教師あり/なし、強化学習を解説

                                最近よく耳にするようになった「機械学習」という言葉。ビジネスで活用するには機械学習でできることとその限界を理解しておく必要があるだろう。 前回記事では、機械学習には大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類が存在することを解説した。今回はこの3つについて、もう少し詳しく整理してみたい。 連載:よくわかる人工知能の基礎知識 いまや毎日のようにAI(人工知能)の話題が飛び交っている。しかし、どれほどの人がAIについて正しく理解し、他人に説明できるほどの知識を持っているだろうか。本連載では「AIとは何か」といった根本的な問いから最新のAI活用事例まで、主にビジネスパーソン向けに“いまさら聞けないAIに関する話”を解説していく。 (編集:ITmedia村上) 機械学習の種類 人間でも、何の手掛かりもなしに学習することは不可能だ。ちょうどいま皆さんがしているように、何らかの解説

                                  文系でも分かる「機械学習」のススメ 教師あり/なし、強化学習を解説
                                • GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。

                                  3つの要点 ✔️その1 DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その2 モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その3 囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成 続きを読むには (3155文字画像6枚) AI-SCHOLARに 登録いただく必要があります。 1分で無料で簡単登録する または ログイン

                                    GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。
                                  • 【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選 - Qiita

                                    はじめに 今回は強化学習編として、Transformer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します!著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください! CoBERL: Contrastive BERT for Reinforcement Learning 実装のURL:https://github.com/deepmind/dm_control 強化学習における新たなエージェント「Contrastive BERT for Reinforce

                                      【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選 - Qiita
                                    • Control as Inference (強化学習とベイズ統計)

                                      東京大学松尾研究室 強化学習サマースクール2020 第5回 https://deeplearning.jp/reinforcement_cource-2020s/Read less

                                        Control as Inference (強化学習とベイズ統計)
                                      • 強化学習未経験者がテトリスの AI を作ってみた話

                                        はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの状態から可能な行動パターンを全てシミュレーションする 行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる 今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図 何も知らない頃は『AI ってどうやって動いてるんだ?』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測

                                          強化学習未経験者がテトリスの AI を作ってみた話
                                        • 【落合陽一】「ChatGPT」強化学習リーダーは、日本生まれで6カ国渡った元Google Brainの研究者。OpenAIのシェイン・グウが語る、”生成AI時代”の日本の「強みと新たな可能性」とは?

                                          番組のフル視聴(95分)はこちらから http://bit.ly/3XYQr65 NewsPicksの番組一覧 https://bit.ly/3KCA4GD 10日間無料トライアル実施中 http://bit.ly/3X5XMzD 学生の方には学割(月額500円)プランも https://bit.ly/3RBfbxU _____ 質問を入力すると会話形式の文章で何でも答えるChatGPTに、テキストから高度な画像を生成するDALL·E 2。いま世界で注目されている"生成AI"を開発し、一般公開しているのが、アメリカの『OpenAI』だ。Google Brainから移籍し、現在はChatGPTチームで強化学習リーダーを務めるシェイン・グウ氏によると、生成AIの急成長は単なる一過性のトレンドではなく、今後さらに加速していき、より自律性に富んだ汎用人工知能(AGI)に近づくという。7年前

                                            【落合陽一】「ChatGPT」強化学習リーダーは、日本生まれで6カ国渡った元Google Brainの研究者。OpenAIのシェイン・グウが語る、”生成AI時代”の日本の「強みと新たな可能性」とは?
                                          • 【入門】強化学習 - Qiita

                                            強化学習をざっと勉強した際のまとめです。 入門者の参考となれば幸いです。 強化学習とは 強化学習の位置付けはこのようになります。 【用語】 - 教師あり学習 - 教師データとして入力とその出力がある - 回帰や分類問題 - 教師なし学習 - 教師データがない - データの特徴を抽出したり、表現変換 強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の

                                              【入門】強化学習 - Qiita
                                            • Unity + Python + 箱庭でロボットを強化学習させてみよう! - Qiita

                                              概要 TOPPERS/箱庭では、様々なロボットがありますが、これらのロボットを強化学習できる環境を準備しました。 Python使って、Unity上のロボットの強化学習で試してみたいと思われる方にはお役に立てる環境と思います! ちなみに、PythonからChatGPTのAPI使って、箱庭ロボットを動かすこともできます。 ロボットの種類 箱庭で利用できるロボットとしては以下があります。 荷物運搬ロボット 本記事で、強化学習用に用意したもので、利用可能です。 ETロボコン競技用ロボット(HackEV) ET ロボコン競技用ロボットと同じモデルです。荷物運搬ロボットと同じ通信インタフェースですので、強化学習可能です。 EV3 ベースの電車・信号モデル こちらは、電車のレール上を走るロボットと信号用のロボットです。通信インタフェースはEV3ベースですので、これまでのものと同じです。 原理的には同様に

                                                Unity + Python + 箱庭でロボットを強化学習させてみよう! - Qiita
                                              • kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )

                                                概要 現在、kaggle に Connect X という強化学習の Getting Started コンペ があります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。 こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは 強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。 教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学

                                                  kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
                                                • 「熟練者と同レベルの意思決定ができる」AI、NECが開発 「逆強化学習」で「意図」を学習

                                                  NECは、熟練者の過去の行動履歴データを「逆強化学習」で学習することで、その「意図」を意思決定モデルとして学習し、熟練者と同等の判断を、迅速かつ自律的に導き出せるAI技術を開発したと発表した。同技術を、放送局の広告スケジューリング業務に適用したところ、経験豊富な熟練者と同じレベルの意思決定を、10倍以上のスピードで実現できたという。 NECは7月17日、熟練者の過去の行動履歴データを「逆強化学習」で学習することで、その「意図」を意思決定モデルとして学習し、熟練者と同等の判断を、迅速かつ自律的に導き出せるAI技術を開発したと発表した。同技術を、放送局の広告スケジューリング業務に適用したところ、経験豊富な熟練者と同じレベルの意思決定を、10倍以上のスピードで実現できたという。 逆強化学習とは、報酬を基に最適行動を導き出す強化学習にとは“逆”に、最適行動から報酬を推定する学習。 新技術では、デー

                                                    「熟練者と同レベルの意思決定ができる」AI、NECが開発 「逆強化学習」で「意図」を学習
                                                  • 強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita

                                                    強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで,最初は強化学習の基礎の基礎の解説から,Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました.Actor-Criticについては,Q学習との比較用にA3Cあたりを少しだけ書いています.あと,最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています. 基礎の基礎 強化学習とは? 教師あり学習,教師無し学習に並ぶ,機械学習の一分野. 端的に言うと,エージェントと呼ばれる行動主体が,ある環境のなかで得られる報酬を最大化する最適化問題. ただし,報酬を得るためにどうしたらよいかというのは非自明な場合が多く,また,報酬のみではスパースで扱いにくいので,途中の過程ででてくる状態や,エージェントの行動に価値を付与し,その価値を最大化する問題に

                                                      強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita
                                                    • サマースクール’20:深層強化学習 | Deep Learning JP

                                                      本講座は、Deep Learningを用いた強化学習に特化した全6回の講義です。東京大学でDeep Learning基礎講座を公開してきた松尾研究室が、深層学習の基礎を習得済みの学生を対象として開講するものです。 深層学習を用いた強化学習の研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指します。離散制御や連続値制御、モデルベース学習などの強化学習の基礎的なアルゴリズムから、sim2real、模倣学習、Control as Inference、世界モデル、まで深層強化学習の種々のトピックをカバーします。講義のみでなく、実践的な演習を通して、効率的に強化学習について手を動かしながら技術を深く理解します。

                                                        サマースクール’20:深層強化学習 | Deep Learning JP
                                                      • 【DeepRacer】ワークショップの超丁寧な日本語資料で強化学習を体験する #AWSSummit

                                                        現在幕張で開催されているAWS Summit Tokyo 2019では、AWS DeepRacerリーグも同時に開催されていて、アツい戦いが繰り広げられています。 DeepRacer リーグの Summit サーキット 始まりました、AWSの祭典AWS Summit Tokyo!クラスメソッドは今回も全力でブース展開や社長登壇、怒涛のブログ更新、あとAWS DeepRacerリーグの優勝(目標)などを行う予定です。情報まとめサイトも公開中! #AWSSummit https://t.co/lf9Pc4Le6R pic.twitter.com/XBMS2wnW3p — クラスメソッド&Developers.IO (@classmethod) June 12, 2019 DeepRacerは、機械学習を1/18スケールの実車を使って学んでしまおうという、なんともロマン溢れる粋なサービスですが、

                                                          【DeepRacer】ワークショップの超丁寧な日本語資料で強化学習を体験する #AWSSummit
                                                        • 1000台超のPS4で強化学習。ソニーのAI「Sophy」は何がすごいのか…グランツーリスモの未来

                                                          グランツーリスモでeスポーツトップドライバーと、AIドライバーである「Sophy」が対戦する様子。 オンライン会見を筆者キャプチャー ソニーが開発した「AI」が、プロのeスポーツ・レーサーに勝利した。 その名は「Grand Turismo Sophy(ソフィー、以下Sophy)」。 2020年にソニーが設立したAIの基礎研究機関である「ソニーAI」と「グランツーリスモ」シリーズを開発するポリフォニー・デジタル、ソニー・インタラクティブエンタテインメント(SIE)との共同開発だ。3月4日より発売される最新作「グランツーリスモ7」にも、アップデートでの追加搭載が決まっている。 囲碁や将棋でAIが人間に勝つ時代、ゲームでAIが人間に勝つのは当たり前……。 そう思う人がいるかもしれない。 だが、ソニーAI・COO(最高執行責任者)のミカエル・ シュプランガー氏はSophyの成果が「人工知能における

                                                            1000台超のPS4で強化学習。ソニーのAI「Sophy」は何がすごいのか…グランツーリスモの未来
                                                          • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary

                                                            この記事について 深層強化学習を利用してAI RC Carの走行を学習させるソフトウェアをGithub上で公開しています。learnign_racerと命名しました。2020年4月29日の時点でのバージョンはv1.0.0です。この記事ではこのソフトウェアについて紹介していきます。 github.com なお、NVIDIAのJetson Community Projectsのページでも紹介されています。 developer.nvidia.com learning_racerの概要 このソフトウェアは10分から15分程度の学習時間で、コースに沿って走行する方法を獲得することができます。従来のAI RC Carでは人間のお手本操作をDNNに覚えこませる手法が一般的です1。ですが、本手法は教師なし学習の手法である強化学習をベースとしているため、教師データとなる人間のお手本操作は必要ありません。さら

                                                              Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary
                                                            • 強化学習とは?機械学習との違いなどの用語解説や活用事例などをご紹介

                                                              dodaチャットサポート 対応時間:10:00~22:00(日曜・年末年始を除く) 自動案内は24時間365日対応 転職の「モヤモヤ」、一人で悩まず 気軽に相談してみませんか? dodaの使い方は? 今の仕事を続けるべき?

                                                                強化学習とは?機械学習との違いなどの用語解説や活用事例などをご紹介
                                                              • GoogleがサッカーゲームAIを研究中。強化学習でAIはどこまでうまくなれるか? - AUTOMATON

                                                                GoogleのAI研究チームは6月7日、サッカーゲームをプレイするAIについての研究内容をブログにて公表した。AI同士をサッカーシミュレーションゲーム上で対戦させ、AIのテストを行っているようだ。また、AIのテスト環境や学習環境などが含まれる「Google Research Football Environment」のベータ版を、オープンソースでGithub上に公開している。 公開された動画では、サッカーコートを真横から見たゲーム画面が表示される。『FIFA』や『ウイニングイレブン』スタイルのサッカーゲームのように見える。プレイ画面では、ゲーム内の選手たちがボールを追って走り回り、小気味よいプレイを見せている。一見するとプレイヤーたちによるプレイ動画のように見えるが、しかしこれは人間と人間の対戦動画ではない。すべての選手がAIによって操作されているAI同士の対戦動画だ。パスを出し、シュート

                                                                  GoogleがサッカーゲームAIを研究中。強化学習でAIはどこまでうまくなれるか? - AUTOMATON
                                                                • 制御工学者のための強化学習入門

                                                                  Online ISSN : 1883-8170 Print ISSN : 0453-4662 ISSN-L : 0453-4662

                                                                  • これから強化学習を使いたい人向け、強化学習の基礎と論文紹介 - Qiita

                                                                    実務でモデルフリー強化学習を活用しようとして勉強したことを書きます ドコモの先進技術研究所1年目の勝見と申します。今回は先輩から誘われて、アドベントカレンダーの記事の12日目を担当することになりました。本来は現在行っているデータ分析周りの業務になにか絡めて書けると良いのですが、残念ながらまだオープンにできるようなネタはありませんので、私が業務での実タスクに応用しようと検討を行っている強化学習(モデルフリー)の初学者向けの記事を自身のためのまとめも兼ねて、学習の過程で個人的に面白いなと感じたポイントを織り交ぜながら書こうと思います。 マルコフ決定過程 (Markov decision process) このあたりは多くの記事でも取り上げられているため今更感がありますが、強化学習をタスクに適用するために必要となる定式化について説明しておきます。 強化学習では取り扱う問題を、エージェントが起こし

                                                                      これから強化学習を使いたい人向け、強化学習の基礎と論文紹介 - Qiita
                                                                    • DeepMindが深層強化学習を利用してアルゴリズムを改善するAI「AlphaDev」を発表、すでにソートアルゴリズムやハッシュ関数の高速化に成功

                                                                      AlphaGoの開発元として有名なGoogle DeepMind社が深層強化学習を応用してさまざまなコンピューティングアルゴリズムを改善するAI「AlphaDev」を発表しました。同時に、AlphaDevを利用してソートアルゴリズムを高速化できたという論文がNatureに掲載されています。 AlphaDev discovers faster sorting algorithms https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms Faster sorting algorithms discovered using deep reinforcement learning | Nature https://doi.org/10.1038/s41586-023-06004-9 ソートアルゴリズムとは

                                                                        DeepMindが深層強化学習を利用してアルゴリズムを改善するAI「AlphaDev」を発表、すでにソートアルゴリズムやハッシュ関数の高速化に成功
                                                                      • AI最大の課題「フレーム問題」解決の糸口をグリッドが開発!強化学習とアンサンブル学習を連携 米国物理学協会発刊学術誌が掲載 - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                                                        株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renewable and Sustainable Energy」に評価され、論文が掲載されたことを発表した。 この発見・開発をもとに、このAI技術を将来の電力需要や天候を予測しながら、365日分の効率的な電力の需給計画を算出することへの実用化を進める。同社はそれに合わせて、報道関係者向け説明会を開催した。 「不確実な環境」でも機能するAIの開発に成功 AIは過去のデータやパターンを学習し、画像を識別したり、将来を予測したりと、識別や認識技術を進化させた。今では将来の状況を踏まえて最善な選択をおこなう人間の意識決定に寄

                                                                          AI最大の課題「フレーム問題」解決の糸口をグリッドが開発!強化学習とアンサンブル学習を連携 米国物理学協会発刊学術誌が掲載 - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                                                        • [CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介

                                                                          [CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介 ライター:大陸新秩序 2022年8月24日,ゲーム開発者向けカンファレンス「CEDEC 2022」にて,「強化学習AIを活用してゲームデザインを!:『桃太郎電鉄〜昭和 平成 令和も定番!〜』『実況パワフルサッカー』」と題されたセッションが開催された。 本セッションには,コナミデジタルエンタテインメント 技術開発部主査の岩倉宏介氏と第三制作部プログラマーの池畑 望氏,技術開発部プログラマーの宗政俊一氏の3名が登壇。ゲームデザイン分析および運営型ゲームのバランス調整に強化学習AIを活用した事例の紹介が行われたので,その内容を紹介しよう。 本セッションにおける強化学習とは まずセッションの冒頭では,AIの強化学習の解説が行われた。強化学習では,AIがゲー

                                                                            [CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介
                                                                          • 強化学習で「ゼビウス」攻略に挑む、昭和レトロなAIロボットの正体

                                                                            段ボール製ロボットの名前は「キューゴロー」。昭和の時代を思い出させるどこか懐かしいデザインが特徴だ。一見すると、キューゴローの手でコントローラーを操作しているように見えるが、実際は「裏側で動いているAIがゲームをプレイしている」(バンダイナムコ)。 AIには、与えられた環境における価値を最大化するようにエージェントを学習させる強化学習(reinforcement learning)の手法を用いた。キューゴローは巧みな操作で敵の弾をかわしながら攻撃していくが、たまに失敗すると悲しげな表情を見せてくれる。 ユニークな展示に込められた思いを担当者に聞いた。 渡米するために「折りたためるロボット」を製作 バンダイナムコ研究所の中野渡昌平さん(イノベーション戦略本部 クリエイティブデザイン部 課長 事業プロデューサー)は、「AIやロボットは直感的に理解しにくいものです。人と機械の身近なコミュニケーシ

                                                                              強化学習で「ゼビウス」攻略に挑む、昭和レトロなAIロボットの正体
                                                                            • 強化学習用の教師生成時のランダムムーブについて | やねうら王 公式サイト

                                                                              将棋AIの強化学習では自己対局を用いるが、その時に同一の棋譜ができてしまわないように何らかの工夫が必要である。 1) floodgateのような大量の実戦棋譜の任意の局面から開始する 2) 定跡を用意して、ランダムに定跡を採択する 3) 初手から数手、ランダムムーブを入れる 4) 序盤では最善手と評価値(or 期待勝率)がさほど離れていない指し手のなかからランダムに選択する 2016年~2017年ごろのやねうら王は、人間の棋譜を用いないということにこだわっていたので3)にしていた。いまどきの主流が1)なのか2)なのかは知らないが、AlphaZeroに影響を受けている人は4)が多いように思う。2018年は1)を試してみた。そちらのほうが少し強くなった。 それで、これに関して、なんとかちゃんねるに気になる投稿があったので引用する。 634名無し名人 (ワッチョイ 0234-3XbD)2020/

                                                                              • 《日経Robotics》グーグルが開発、強化学習を1000倍高速にする技術

                                                                                米グーグルが、ロボットの深層強化学習を1000倍以上に高速化する驚異的な技術を開発した。数時間を要していた学習を、わずか10秒ほどに短縮できる。新しい強化学習のアルゴリズムを考案したという話ではなく、強化学習のすべての分野に影響が及ぶ、よりベーシックなレイヤーで革新を起こした。 ディープラーニング技術といえば、その学習から推論までGPUのようなアクセラレータ上で動くのが当然と思われるかもしれない。しかし、ディープラーニング技術が全盛の現在でも、未だにGPU上で動かず、CPUの上でシングルスレッドで実装されているところがあった。それが物理演算を行うシミュレータである。 強化学習では、環境中での試行錯誤を繰り返しながら学習を進めていくが、ロボットのような物理的な動きを伴うケースでは、いきなり実機で試行錯誤を行うと環境やロボットそのものを破損することがあり危険である。このため、当初は物理演算エン

                                                                                  《日経Robotics》グーグルが開発、強化学習を1000倍高速にする技術
                                                                                • AlphaTensor :強化学習を利用した高速な行列積演算アルゴリズムの発見 - Qiita

                                                                                  1. はじめに 本記事では、2022年10月にNatureに掲載されたAlphaTensor[1]および関連分野を紹介します。AlphaTensorは「AIが行列積演算の新しいアルゴリズムを発見した」といううたい文句のもとSNSを中心に大きな話題となりました。具体的には、[1]でAIが”発見”したアルゴリズムのひとつでは2進数上の4×4の行列の積を47回の掛け算で計算することができ、これは[1]以前の最速49回(Strassenのアルゴリズム)を上回ったことになります。なお、Strassenのアルゴリズムの49回はその発見から[1]まで約50年間破られていませんでした。 「AIが新しいアルゴリズムを発見した」という広告ですが、実際は 「あるテンソルのよい分解方法を強化学習を利用して探索した」 といった方が正しいです。この 「あるテンソル」はその分解方法と「行列積のアルゴリズム」が自然と対応

                                                                                    AlphaTensor :強化学習を利用した高速な行列積演算アルゴリズムの発見 - Qiita