強化学習の人気記事 23件 - はてなブックマーク

1 - 23 件 / 23件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

強化学習の検索結果1 - 23 件 / 23件

AIにかくれんぼをさせたら徐々に高度な戦略を編み出し、人間には思いつかないような作戦を取るようになった「腹抱えて笑った」
- 555 users
- togetter.com
- テクノロジー
- 2019/09/21
小猫遊りょう（たかにゃし・りょう） @jaguring1 AIにかくれんぼをさせたら、徐々に高度な戦略を編み出していって、あるとき、隠れる側が鬼を隠すゲームになってるの、何度見ても笑う twitter.com/OpenAI/status/… 2019-09-20 15:01:16 OpenAI @OpenAI Wondering why the hiders did not cage in the seekers instead of building their own fort? In one environment variant where hiders have to protect glowing orbs, that's exactly what they learned to do! pic.twitter.com/yifS7rI4eR 2019-09-20 07:39:0
- AI
- あとで読む
- togetter
- アルゴリズム
- 人工知能
- 学習
- 技術
- technology
- twitter
誰でもわかる強化学習
- 371 users
- speakerdeck.com/imai_eruel
- テクノロジー
- 2023/11/24
本資料は，東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに，講演目的でより初学者向けに内容を調整したものです．特に強化学習で最も基本的かつ最重要手法であるQ学習や，それの深層強化学習版のDQN（Deep Q-Network）を中心に解説しています. 昨今，ChatGPT等の大規模言語モデル（LLM）の開発に強化学習が使用（RLHF等）され，さらに強化学習をLLMに本格的に組み込んだAI（ GoogleのGemini，OpenAIのQ*等）の出現が予想されることから，�強化学習の知識の普及のため公開しました.
- AI
- あとで読む
- 強化学習
- 機械学習
- 学習
- ChatGPT
- 勉強
- 資料
- 言語
- LLM
自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
- 285 users
- pira-nino.hatenablog.com
- テクノロジー
- 2020/01/31
こんにちは。nino_piraです。先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある！？」と思い自分が読んだ&好きな資料をまとめてます。また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。あくまでも私の経験強化学習基礎系 [Qiita] DQN（Deep Q Network）を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ　Pythonで学ぶ強化学習 [ブログ]強化学習もう少し強化学習を詳しく知りたい系の人へ [書籍]速習強化学
- 機械学習
- 強化学習
- あとで読む
- AI
- 学習
- 論文
- 深層学習
- GitHub
- 資料
- データ
強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
- 158 users
- www.hellocybernetics.tech
- テクノロジー
- 2019/09/22
はじめにベルマン方程式の概要最適制御と評価関数最適制御評価関数価値関数ベルマンの最適性原理ベルマン方程式価値関数の離散化状態の時間発展再訪ベルマン方程式まとめ最後にはじめに強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は意外と多いのではないかと思われます。これを知っていようが知っていまいが、正直世の中の便利なフレームワークを活用すれば強化学習を実行することは可能であるためだと推測されます。しかし、ある種の出発点になっているはずの基礎方程式を無視して、ガチャガチャ色々試してみても、なんだかフワついたままでモヤモヤしてしまうのではないでしょうか。少なくとも自分はそうです。なので今回はベルマン方程式を基本から丁寧に解説していきたいと思います。ベルマン方程式の概要細かい話をする前に、ベルマン方程式がど
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
- 156 users
- wirelesswire.jp
- テクノロジー
- 2020/10/08
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。深層強化学
ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
- 149 users
- gigazine.net
- テクノロジー
- 2023/06/10
RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに
- ChatGPT
- あとで読む
- AI
- 人工知能
- 機械学習
- 文章生成AI
- 学習
- LLM
LLM時代の強化学習 - どこから見てもメンダコ
- 144 users
- horomary.hatenablog.com
- テクノロジー
- 2023/11/25
強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策マルチモーダルLLM as 確率方策参考：GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに：VLM as 確率方策に期待はじめに：実世界における強化学習の課題レトロゲームで人間並みのパ
- LLM
- あとで読む
- 強化学習
- 機械学習
- AI
- 学習
- 言語
- 勉強
サッカーを強化学習する - 思考の本棚
- 131 users
- kutohonn.hatenablog.com
- テクノロジー
- 2020/12/12
はじめにこの記事は強化学習苦手の会Advent Calenderの12日目の記事です。私は11月末までKaggle上で開催されていたGoogle Research Football with Manchester City F.C.に参加していました。このコンペはGoogle Researchが用意したサッカーゲーム上でサッカーエージェント(プレイヤー)を作成し、その強さを競うというものです。私はhigeponさんとチームを組ませていただき、強化学習アプローチでコンペ開催から終了まで取り組みました。そこでサッカーエージェントを強化学習で育成する際に工夫した点や苦労した点を共有できればと思います。 kaggle: Google Research Football competition www.kaggle.com GitHub: Google Research Football gi
強化学習の基礎と深層強化学習（東京大学松尾研究室深層強化学習サマースクール講義資料）
- 127 users
- www.slideshare.net/ShotaImai3
- テクノロジー
- 2020/09/14
東京大学松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です．強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています．巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました．主に以下のような強化学習の概念やアルゴリズムの紹介をしています．・マルコフ決定過程・ベルマン方程式・モデルフリー強化学習・モデルベース強化学習・TD学習・Q学習・SARSA ・適格度トレース・関数近似・方策勾配法・方策勾配定理・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN（Deep Q-Network）・経験再生・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois
ChatGPT 人間のフィードバックから強化学習した対話AI
- 125 users
- www.slideshare.net/ShotaImai3
- テクノロジー
- 2022/12/12
東京大学の研究室内で，今井がChatGPTの知見を共有するために使用したスライド資料です．特に以下のような話題，技術について解説しています．・ChatGPTの凄さ・ChatGPTの技術・言語モデル・プロンプト・GPTとは・InstructGPT ・言語モデルと強化学習Read less
- ChatGPT
- AI
- 機械学習
- gpt
- あとで読む
- 資料
いろんなバンディットアルゴリズムを理解しよう - Qiita
- 124 users
- qiita.com/birdwatcher
- テクノロジー
- 2023/11/01
今回は、何も知らないところからバンディットアルゴリズムを学びました。シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。学んでいて疑問に思ったことを解消しつつ記載しています。ソースコード https://github.com/birdwatcherYT/bandit 対象読者バンディットアルゴリズムを理解して実装したい人ユーザーごとにカスタマイズしたバンディットを理解して実装したい人（Contextual Bandit）順序を最適化するバンディットを使いたい人（Cascading Bandit）バンディットアルゴリズムバンディットの問題設定を説明します。スロットマシンN台があるスロットマシンの腕を引くと報酬がもらえる累積報酬を最大化したいバンディットアル
- アルゴリズム
- bandit
- あとで読む
- 機械学習
- algorithm
- qiita
- AI
YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜
- 106 users
- medium.com
- テクノロジー
- 2019/12/24
はじめにこの記事は「eureka Advent Calendar 2019」24日目の記事です。こんにちは、Data Analystの @pacocat です！私はeurekaには2019年11月に入社したばかりなのですが、毎日楽しく仕事させてもらっています。最近はプロダクト開発のための定性調査の仕組みづくりを手伝ったり、事業分析や組織開発をしていたりと、様々な定量・定性データを活用してどのように事業成長に貢献できるか考える日々です。前職ではAI PdMとして、ゲームや強化学習領域でのAI活用を推進していました（興味ある方はGDC2019での発表や各種スライド slideshare / speakerdeck をご覧ください）。直近はがっつりAIに関わっているわけではありませんが、趣味で推薦×強化学習分野のサーベイをしていたら面白い話題がたくさんあったので、それらの中からYouTub
強化学習の基礎まとめ - Qiita
- 101 users
- qiita.com/ski2_1116
- テクノロジー
- 2023/05/13
こんにちは、すきにーです。強化学習の基礎的な手法についてまとめました。はじめにこの記事では以下を説明しています動的計画法モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編に載っているものを参考にしています。参考記事深層強化学習アルゴリズムまとめゼロからDeepまで学ぶ強化学習これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ今さら聞けない強化学習（1）：状態価値関数とBellman方程式全体図動的計画法動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。方策反復法と価値反復法があります。環境のモデルが分かっていることは少ないので、あまり使われません。モンテカルロ法動的計画法では環境のモデルが完全にわかっている状態
- アルゴリズム
- あとで読む
- 強化学習
- 機械学習
- qiita
- 学習
- techfeed
- AI
- 研究
RLHF (人間のフィードバックからの強化学習) の図解｜npaka
- 94 users
- note.com/npaka
- テクノロジー
- 2023/04/28
以下の記事が面白かったので、軽く要約しました。・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失（クロスエントロピーなど）で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり
東京大学、強化学習と統計的自然言語処理の講義資料が無料公開サイバーエージェントの講師ら担当 | Ledge.ai
- 88 users
- ledge.ai
- テクノロジー
- 2021/09/24
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
- 機械学習
- あとで読む
- 強化学習
- 東大
- 勉強
- HotEntry
- 研究
ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開
- 66 users
- gigazine.net
- テクノロジー
- 2023/04/13
OpenAIが提供する「ChatGPT」などのチャットAIは要約やコーディング、翻訳などを人間の専門家以上の精度で実行できると報告されています。しかしチャットAIの訓練に必要な人間のフィードバックに基づいた強化学習(RLHF)を実行するエンドツーエンドなパイプラインが存在せず、最先端のチャットAIの訓練を行うことは困難でした。しかしMicrosoftが発表した「DeepSpeed-Chat」では誰でもChatGPTのようなモデルを作成可能です。 DeepSpeed/blogs/deepspeed-chat/japanese at master · microsoft/DeepSpeed · GitHub https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese これまでChatGPTのよ
- AI
- microsoft
- 機械学習
- ChatGPT
- 自然言語処理
- 人工知能
- techfeed
GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。
- 65 users
- ai-scholar.tech
- テクノロジー
- 2019/12/20
3つの要点 ✔️その１ DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その２モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その３囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成続きを読むには (3155文字画像6枚) AI-SCHOLARに登録いただく必要があります。 1分で無料で簡単登録するまたはログイン
- 機械学習
- MuZero
- AI
- 強化学習
- あとで読む
- 将棋
エクストリーム「人類最強ボードゲームAI」AlphaZeroアルゴリズム入門 - Qiita
- 62 users
- qiita.com/yuto-ktok
- テクノロジー
- 2020/07/10
はじめに僕が、この本に出会ったのは、かれこれ1ヶ月前のことになる。それまでは、自分は「AlphaZero」のAの字も知らない「AlphaZero童貞」だった。 AlphaZero 深層学習・強化学習・探索人工知能プログラミング実践入門この本にであって、気づいたらAlaphaZeroを自分で実装するところまでいけた！わかりやすい、大変オススメの本です。 (※この記事の図は、この本から引用しています。) この記事を読むことで、「AlphaZeroのアルゴリズム概要はつかめた。」というところまで、噛み砕いてエクストリームに説明できればと思います。(中田敦彦風) AlphaZeroのすごいところまず、AlphaZeroをかいつまんで話すとルールを与えるだけで、自分のコピーとひたすら対戦を繰り返し勝手に学習して、進化していく(強化学習と呼びます) いろんなゲームに転用可能十分に学
- 機械学習
- AI
- アルゴリズム
- あとで読む
- HotEntry
- 人工知能
- qiita
- -
- techfeed
【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選 - Qiita
- 60 users
- qiita.com/skillup_ai
- テクノロジー
- 2022/06/16
はじめに今回は強化学習編として、Transformer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します！著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習（AutoML）を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください！ CoBERL: Contrastive BERT for Reinforcement Learning 実装のURL：https://github.com/deepmind/dm_control 強化学習における新たなエージェント「Contrastive BERT for Reinforce
- 機械学習
- あとで読む
- 強化学習
- 勉強
- 論文
- qiita
- learning
- 学習
Control as Inference (強化学習とベイズ統計)
- 59 users
- www.slideshare.net/ShoheiTaniguchi2
- テクノロジー
- 2020/08/29
東京大学松尾研究室強化学習サマースクール2020 第5回 https://deeplearning.jp/reinforcement_cource-2020s/Read less
強化学習未経験者がテトリスの AI を作ってみた話
- 56 users
- zenn.dev/through
- テクノロジー
- 2024/05/01
はじめにこの度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます！今回の AI の概要今回作成したテトリス AI の概要は以下の通りです。特定のゲームの状態から可能な行動パターンを全てシミュレーションする行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図何も知らない頃は『AI ってどうやって動いてるんだ？』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測
【入門】強化学習 - Qiita
- 53 users
- qiita.com/yyokii
- テクノロジー
- 2020/05/18
強化学習をざっと勉強した際のまとめです。入門者の参考となれば幸いです。強化学習とは強化学習の位置付けはこのようになります。【用語】 - 教師あり学習 - 教師データとして入力とその出力がある - 回帰や分類問題 - 教師なし学習 - 教師データがない - データの特徴を抽出したり、表現変換強化学習では何をしていくかというと、「将来の価値を最大化するような行動を学習」していきます。強化学習のモデル強化学習の基本的な仕組みは次のようになっています。以下の$t$は任意のステップを示しますエージェント（意思決定者）: 意思決定と学習を行う主体環境: エージェントが相互作用を行う対象状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の
kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
- 50 users
- yukoishizaki.hatenablog.com
- テクノロジー
- 2020/04/06
概要現在、kaggle に Connect X という強化学習の Getting Started コンペがあります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学