タイトル「強化学習」を検索 - はてなブックマーク

1 - 40 件 / 505件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

強化学習の検索結果1 - 40 件 / 505件

ゼロからDeepまで学ぶ強化学習 - Qiita
- 526 users
- qiita.com/icoxfog417
- テクノロジー
- 2016/06/07
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS
- 412 users
- www.hellocybernetics.tech
- テクノロジー
- 2017/07/22
はじめにここでは、機械学習、ディープラーニング、強化学習、ベイズを無料で学ぶことのできるオンラインリソースを項目ごとにまとめておきます。機械学習 ITについて学べるオンライン講座「Udacity」は、基本的に有料で講座を受けるのですが、中には非常に中身の詰まったコンテンツで、かつ無料の講座も存在します。以下の講座では、機械学習の各技術に関して広くカバーしており、決定木からサポートベクターマシン、ニューラルネットワークやベイズ、強化学習まで学ぶことができます。かなりのボリュームなので興味のあるところを学んでいく感じでも良いと思います。 www.udacity.com s0sem0y.hatenablog.com s0sem0y.hatenablog.com ディープラーニング同じくUdacityからディープラーニングに関する講座です。多層パーセプトロンから畳み込みニューラルネット
深層強化学習アルゴリズムまとめ
- 396 users
- qiita.com/shionhonda
- テクノロジー
- 2018/10/09
はじめに深層強化学習の分野では日進月歩で新たなアルゴリズムが提案されています. それらを学ぶ上で基礎となるアルゴリズム(というより概念に近い？)はQ学習, SARSA, 方策勾配法, Actor-Criticの4つだと思われるので, これらを軸としてまとめてみたいと思います. 以下の4点はあらかじめご了承ください. コードは書いていません. 概念のみの説明です他のアルゴリズムの基礎となりうる重要な概念については詳しく書きました. その他については簡潔に書きました深層学習についてはある程度理解している読者を想定しています書いているうちに規模がどんどん大きくなってしまったので, どこかに必ず間違いや不足があります. 「この式がおかしい！」「このアルゴリズムも追加するべき！」などコメントがあればぜひお願いします全体像扱うアルゴリズムを相関図にしてみました(私のイメージです). まず,
深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉
- 384 users
- blog.takuya-andou.com
- テクノロジー
- 2016/11/15
Photo via Visual Hunt 少し前のことですが、AlphaGoという囲碁の人工知能プログラムがイ・セドル九段に勝利したことで話題になりました。*1 また、一部のゲームにおいて「DQN（Deep Q-network）」が人間よりも上手くプレイするようになったというニュースも話題になっていましたね。*2 今回はこれらの事例で使われている「深層強化学習」という仕組みを使って、FXのシステムトレードができないかと思い、調べてみました。注意：強化学習もFXも勉強し始めたばかりなので、色々間違っている箇所があるかもしれません。ご指摘いただけると幸いです。今回の内容 1.強化学習について 1-1.強化学習 1-2.Reinforcement Learning: An Introduction (2nd Edition) 1-3.UCL Course on RL 1-4.強化学習につい
ゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learning
- 375 users
- www.slideshare.net/pfi
- テクノロジー
- 2018/03/24
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference. 言語処理学会第24回年次大会(NLP2018) での講演資料です。 http://www.anlp.jp/nlp2018/#tutorialRead less
誰でもわかる強化学習
- 371 users
- speakerdeck.com/imai_eruel
- テクノロジー
- 2023/11/24
本資料は，東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに，講演目的でより初学者向けに内容を調整したものです．特に強化学習で最も基本的かつ最重要手法であるQ学習や，それの深層強化学習版のDQN（Deep Q-Network）を中心に解説しています. 昨今，ChatGPT等の大規模言語モデル（LLM）の開発に強化学習が使用（RLHF等）され，さらに強化学習をLLMに本格的に組み込んだAI（ GoogleのGemini，OpenAIのQ*等）の出現が予想されることから，�強化学習の知識の普及のため公開しました.
- AI
- あとで読む
- 強化学習
- 機械学習
- 学習
- ChatGPT
- 勉強
- 資料
- 言語
- LLM
分散深層強化学習でロボット制御 - Preferred Networks Research & Development
- 328 users
- tech.preferred.jp
- 学び
- 2015/06/10
新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます！まずはこの動画を御覧ください。以下で、動画の見どころと、使っている技術を紹介します。動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。目の前に車がいるときは一時停止して、いなくなってから加速する。エチオピアには本当にこのような交差点があるらしい。ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って
ChatGPT�人間のフィードバックから強化学習した対話AI
- 322 users
- speakerdeck.com/imai_eruel
- テクノロジー
- 2023/03/28
東京大学の研究室内で，今井がChatGPTの知見を共有するために使用したスライド資料です．特に以下のような話題，技術について解説しています．・ChatGPTの凄さ・ChatGPTの技術・言語モデル・プロンプト・GPTとは・InstructGPT ・言語モデルと強化学習・RLFH
- ChatGPT
- AI
- あとで読む
- LLM
- 機械学習
- NLP
- 学習
- pdf
- 資料
- GPT
これさえ読めばすぐに理解できる強化学習の導入と実践
- 309 users
- deepage.net
- テクノロジー
- 2017/08/11
強化学習の位置づけ教師あり学習教師なし学習強化学習強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得ファイナンスへの応用広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる状態行動報酬実装参考文献ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。機械学習の中でも、こ
深層強化学習の動向 / survey of deep reinforcement learning
- 306 users
- speakerdeck.com/takuseno
- テクノロジー
- 2017/07/20
全脳アーキテクチャ若手の会第28回勉強会 Keywords: DQN, 強化学習, Episodic Control, Curiosity-driven Exploration
- 強化学習
- 機械学習
- AI
- deeplearning
- あとで読む
- deep learning
- slide
- programming
- presentation
- ALL
深層強化学習の最前線 - Speaker Deck
- 288 users
- speakerdeck.com/jinbeizame007
- テクノロジー
- 2018/12/19
アドベントカレンダーを完走する技術 / Techniques for completing an advent calendar
自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
- 285 users
- pira-nino.hatenablog.com
- テクノロジー
- 2020/01/31
こんにちは。nino_piraです。先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある！？」と思い自分が読んだ&好きな資料をまとめてます。また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。あくまでも私の経験強化学習基礎系 [Qiita] DQN（Deep Q Network）を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ　Pythonで学ぶ強化学習 [ブログ]強化学習もう少し強化学習を詳しく知りたい系の人へ [書籍]速習強化学
- 機械学習
- 強化学習
- あとで読む
- AI
- 学習
- 論文
- 深層学習
- GitHub
- 資料
- データ
Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏
- 259 users
- logmi.jp
- テクノロジー
- 2019/04/23
Ponanzaにおける強化学習とA/Bテスト運用山本一成氏（以下、山本）：山本一成と申します。よろしくお願いします。ありがとうございます。ここからはややガチめなエンジニアの話です。まず確認したいんですが、エンジニアとかプログラマーって人はどれくらいいるんですかね？（会場挙手）あ、けっこういるのか！　安心した（笑）。私、10年くらい将棋のプログラムを作ってきて、最初はまったくのど素人から始めたんですけど、いろいろやっていく中で、現代にも通じるようなさまざまな運用とかが出てきたんですね。そのへんをみなさんと共有できればと思っています。まず最初のスライド、さっそく手書きでやる気がない感じですが（笑）。将棋のプログラムってどんなもの？　という話です。将棋も囲碁も、大雑把にいうと、2つの要素があります。1つは探索です。つまり、先を読むということですね。先を読むと強いです。みなさんもそん
- 将棋
- あとで読む
- 機械学習
- ディープラーニング
- 開発
- 強化学習
- AI
- 囲碁
- 学習
- AWS
これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita
- 187 users
- qiita.com/sugulu
- テクノロジー
- 2017/10/30
※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。本記事では、ひとつずつ解説します。オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ●速習強化学習: 基礎理論とアルゴリズム（書籍） ●Deep Learning for Video Game Playing 強化学習とは強化学習は、画像識別のような教師あり学習や、クラスタリングのような教師なし
オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI
- 165 users
- gamemakers.jp
- テクノロジー
- 2023/05/05
Stability AIが、オープンソースのチャットボット「StableVicuna」を発表オンラインで「StableVicuna」との会話を試すことが可能チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日（金）にオープンソースのチャットボット「StableVicuna」を発表しました。 Announcing StableVicuna, the AI World’s First Open Source RLHF LLM Chatbot!@CarperAI (in an effort led by @phungvanduy1) is releasing an RLHF-trained version of Vicuna-13B Learn more → https://t.co/fWk3N8Njg5 pic.twitter.com/
- AI
- あとで読む
- 画像生成AI
- 機械学習
- 開発
- 人工知能
- 人間
- 学習
- techfeed
- development
強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
- 158 users
- www.hellocybernetics.tech
- テクノロジー
- 2019/09/22
はじめにベルマン方程式の概要最適制御と評価関数最適制御評価関数価値関数ベルマンの最適性原理ベルマン方程式価値関数の離散化状態の時間発展再訪ベルマン方程式まとめ最後にはじめに強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は意外と多いのではないかと思われます。これを知っていようが知っていまいが、正直世の中の便利なフレームワークを活用すれば強化学習を実行することは可能であるためだと推測されます。しかし、ある種の出発点になっているはずの基礎方程式を無視して、ガチャガチャ色々試してみても、なんだかフワついたままでモヤモヤしてしまうのではないでしょうか。少なくとも自分はそうです。なので今回はベルマン方程式を基本から丁寧に解説していきたいと思います。ベルマン方程式の概要細かい話をする前に、ベルマン方程式がど
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
- 156 users
- wirelesswire.jp
- テクノロジー
- 2020/10/08
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。深層強化学
深層強化学習ライブラリChainerRL - Preferred Networks Research & Development
- 153 users
- tech.preferred.jp
- テクノロジー
- 2017/02/20
Chainerを使った深層強化学習ライブラリChainerRLを公開しました． https://github.com/pfnet/chainerrl PFNエンジニアの藤田です．社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました．RLはReinforcement Learning（強化学習）の略です．以下のような最近の深層強化学習アルゴリズムを共通のインタフェースで使えるよう実装してまとめています． Deep Q-Network (Mnih et al., 2015) Double DQN (Hasselt et al., 2016) Normalized Advantage Function (Gu et al., 2016) (Persistent) Advantage Learning (Bellemar
強化学習で考えるギャンブラーの最適行動 - kivantium活動日記
- 150 users
- kivantium.hateblo.jp
- テクノロジー
- 2015/09/29
強化学習と呼ばれる機械学習の一分野があります。機械学習というと、入力に対して正解の出力を当てる教師あり学習が話題になることが多いですが、強化学習では明示的に正解が与えられません。ある行動を試してみて、それに対して得られる「報酬」から自分でどのような行動が良い結果をもたらすのかを判断して、より良い行動を学習するアルゴリズムになっています。強化学習にはチェスやリバーシなどといったボードゲームのAIやロボットの行動学習などの応用例があります。この前話題になったDeep Q Network、通称DQNも強化学習の一種です。応用例が面白いにも関わらず、PRMLなどの主要な機械学習の教科書では強化学習を扱わないことが多いので、いま強化学習だけの参考書を買って勉強しています。強化学習作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章出版社/メーカー: 森北出
LLM時代の強化学習 - どこから見てもメンダコ
- 144 users
- horomary.hatenablog.com
- テクノロジー
- 2023/11/25
強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策マルチモーダルLLM as 確率方策参考：GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに：VLM as 確率方策に期待はじめに：実世界における強化学習の課題レトロゲームで人間並みのパ
- LLM
- あとで読む
- 強化学習
- 機械学習
- AI
- 学習
- 言語
- 勉強
サッカーを強化学習する - 思考の本棚
- 132 users
- kutohonn.hatenablog.com
- テクノロジー
- 2020/12/12
はじめにこの記事は強化学習苦手の会Advent Calenderの12日目の記事です。私は11月末までKaggle上で開催されていたGoogle Research Football with Manchester City F.C.に参加していました。このコンペはGoogle Researchが用意したサッカーゲーム上でサッカーエージェント(プレイヤー)を作成し、その強さを競うというものです。私はhigeponさんとチームを組ませていただき、強化学習アプローチでコンペ開催から終了まで取り組みました。そこでサッカーエージェントを強化学習で育成する際に工夫した点や苦労した点を共有できればと思います。 kaggle: Google Research Football competition www.kaggle.com GitHub: Google Research Football gi
- 強化学習
- kaggle
- あとで読む
- 機械学習
- 学習
- machinelearning
- サッカー
- sports
- football
- google
強化学習の基礎と深層強化学習（東京大学松尾研究室深層強化学習サマースクール講義資料）
- 127 users
- www.slideshare.net/ShotaImai3
- テクノロジー
- 2020/09/14
東京大学松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です．強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています．巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました．主に以下のような強化学習の概念やアルゴリズムの紹介をしています．・マルコフ決定過程・ベルマン方程式・モデルフリー強化学習・モデルベース強化学習・TD学習・Q学習・SARSA ・適格度トレース・関数近似・方策勾配法・方策勾配定理・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN（Deep Q-Network）・経験再生・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois
ChatGPT 人間のフィードバックから強化学習した対話AI
- 126 users
- www.slideshare.net/ShotaImai3
- テクノロジー
- 2022/12/12
東京大学の研究室内で，今井がChatGPTの知見を共有するために使用したスライド資料です．特に以下のような話題，技術について解説しています．・ChatGPTの凄さ・ChatGPTの技術・言語モデル・プロンプト・GPTとは・InstructGPT ・言語モデルと強化学習Read less
深層強化学習：ピクセルから『ポン』 – 前編 | POSTD
- 122 users
- postd.cc
- テクノロジー
- 2016/06/28
(訳注：2016/6/28、記事を修正いたしました。) 本記事は、もう随分と前から投稿したいと思っていた強化学習（RL）に関するものです。RLは盛り上がっています。皆さんも既にご存知のこととは思いますが、今やコンピュータは ATARI製ゲームのプレイ方法を自分で学習することができ（それも生のゲーム画像のピクセルから！）、囲碁の世界チャンピオンにも勝つことができます。シミュレーションの四肢動物は走って飛び跳ねることを学習しますし、ロボットは明示的にプログラミングするのが難しいような複雑な操作のタスクでも、その実行方法を学習してしまいます。こうした進歩はいずれも、RL研究が基となって実現しています。私自身も、ここ1年ほどでRLに興味を持つようになりました。これまで、 Richard Suttonの著書で勉強し、 David Silverのコースを通読、 John Schulm
Pythonで学ぶ強化学習 -入門から実践まで-を書きました
- 115 users
- medium.com
- テクノロジー
- 2019/01/17
約1年半ほどかかりましたが、「Pythonで学ぶ強化学習入門から実践まで」を書き上げました。本記事ではAsian Kung-Fu Generationさんがアルバム発売の度に行っている全曲解説にのっとり、各章の見所や苦労した点を紹介したいと思います。
- python
- あとで読む
- book
- ReinforcementLearning
- 機械学習
- 学習
- 強化学習
- MachineLearning
- *book
- 入門
強化学習とは？(What is Reinforcement Learning?)
- 108 users
- sysplan.nams.kyushu-u.ac.jp
- 暮らし
- 2007/03/26
強化学習の概要，応用上の利点，適用例，基礎理論，代表的手法，応用に必要な技術などの説明。本ページの記述は下記の解説記事をもとにWEB用に修正したものである：木村元，宮崎和光，小林重信：強化学習システムの設計指針，計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第１章：強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること第２章：強化学習の適用例：ロボットの歩行動作獲得第３章：強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc
YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜
- 106 users
- medium.com
- テクノロジー
- 2019/12/24
はじめにこの記事は「eureka Advent Calendar 2019」24日目の記事です。こんにちは、Data Analystの @pacocat です！私はeurekaには2019年11月に入社したばかりなのですが、毎日楽しく仕事させてもらっています。最近はプロダクト開発のための定性調査の仕組みづくりを手伝ったり、事業分析や組織開発をしていたりと、様々な定量・定性データを活用してどのように事業成長に貢献できるか考える日々です。前職ではAI PdMとして、ゲームや強化学習領域でのAI活用を推進していました（興味ある方はGDC2019での発表や各種スライド slideshare / speakerdeck をご覧ください）。直近はがっつりAIに関わっているわけではありませんが、趣味で推薦×強化学習分野のサーベイをしていたら面白い話題がたくさんあったので、それらの中からYouTub
強化学習の基礎まとめ - Qiita
- 101 users
- qiita.com/ski2_1116
- テクノロジー
- 2023/05/13
こんにちは、すきにーです。強化学習の基礎的な手法についてまとめました。はじめにこの記事では以下を説明しています動的計画法モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編に載っているものを参考にしています。参考記事深層強化学習アルゴリズムまとめゼロからDeepまで学ぶ強化学習これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ今さら聞けない強化学習（1）：状態価値関数とBellman方程式全体図動的計画法動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。方策反復法と価値反復法があります。環境のモデルが分かっていることは少ないので、あまり使われません。モンテカルロ法動的計画法では環境のモデルが完全にわかっている状態
- アルゴリズム
- あとで読む
- 強化学習
- 機械学習
- qiita
- 学習
- techfeed
- AI
- 研究
CaffeでDeep Q-Networkを実装して深層強化学習してみた - 学生時代に頑張ったことが何もない
- 94 users
- muupan.hatenadiary.org
- テクノロジー
- 2014/10/21
概要深層学習フレームワークCaffeを使って，Deep Q-Networkという深層強化学習アルゴリズムをC++で実装して，Atari 2600のゲームをプレイさせてみました． Deep Q-Network Deep Q-Network（以下DQN）は，2013年のNIPSのDeep Learning Workshopの"Playing Atari with Deep Reinforcement Learning"という論文で提案されたアルゴリズムで，行動価値関数Q(s,a)を深層ニューラルネットワークにより近似するという，近年の深層学習の研究成果を強化学習に活かしたものです．Atari 2600のゲームに適用され，既存手法を圧倒するとともに一部のゲームでは人間のエキスパートを上回るスコアを達成しています．論文の著者らは今年Googleに買収されたDeepMindの研究者です． NIPS
RLHF (人間のフィードバックからの強化学習) の図解｜npaka
- 94 users
- note.com/npaka
- テクノロジー
- 2023/04/28
以下の記事が面白かったので、軽く要約しました。・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失（クロスエントロピーなど）で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり
東京大学、強化学習と統計的自然言語処理の講義資料が無料公開サイバーエージェントの講師ら担当 | Ledge.ai
- 88 users
- ledge.ai
- テクノロジー
- 2021/09/24
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
- 機械学習
- あとで読む
- 強化学習
- 東大
- 勉強
- HotEntry
- 研究
強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング – DeNA
- 86 users
- fullswing.dena.com
- テクノロジー
- 2018/01/09
AI（人工知能）が、人間の仕事を代替する。近年、そんなフレーズが各種メディアに登場するようになりました。今後10～20年で、今存在しているさまざまな仕事は自動化されると考えられています。そして、その波は“ゲーム開発”にも訪れているのです。 DeNAでは、オセロとトレーディングカードゲームの要素を組み合わせた対戦ゲームアプリ『逆転オセロニア』のキャラクターバランス調整を、AIによってサポートすべく研究を続けています。今回は、本プロジェクトを推進し研究・開発に“フルスイング”してきたエンジニアであるAIシステム部AI研究開発グループの奥村エルネスト純、甲野佑、田中一樹に、彼らが成し遂げようとしている未来について聞きました。「世界的に見ても前例がない領域」に挑むやりがい ――なぜ、オセロニアのバランス調整にAIを導入しようとしているのでしょうか？奥村：ゲームのバランス調整をより効率よく正確
- AI
- 強化学習
- 機械学習
- Game
- dena
- あとで読む
強化学習入門～これから強化学習を学びたい人のための基礎知識～ - Platinum Data Blog by BrainPad
- 80 users
- blog.brainpad.co.jp
- テクノロジー
- 2017/02/25
こんにちは。アナリティクスサービス本部の仲田です。本日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alphago-vs-lee-sedol-round-3-live-right-now/より) 「強化学習（Reinforcement Learning）」と呼ばれる学問分野をご存知でしょうか。機械学習にはさまざまな分類方法がありますが、「教師付き学習（Supervised Learning）」「教師なし学習（Unsupervised Learning）」「強化学習」という3種類に分ける考え方があります。この考え方では、強化学習は機械学習のひとつの大きな分野をなすということになります。 (画像は UCL Course on
強化学習 - 星の本棚
- 77 users
- yagami12.hatenablog.com
- テクノロジー
- 2019/02/23
機械学習の一種である強化学習について勉強したことをまとめたノート（忘備録）です。尚、ここで取り上げている各種強化学習手法の一部の手法の実装コードは、以下のレポジトリに保管してあります。 github.com 目次 [Contents] 強化学習のモデル化エージェントと環境の相互作用環境のマルコフ性エピソード的タスクと連続タスクマルコフ決定過程（MDP）価値関数状態価値関数行動価値関数状態価値関数と行動価値関数の関係ベルマン方程式ベルマン最適方程式とグリーディーな選択代表的な古典的強化学習手法の比較強化学習における動的計画法（DP法）反復法による近似解方策評価反復方策評価方策改善方策改善定理方策改善定理とグリーディー方策方策改善のアルゴリズム方策反復法 [policy iteration] 価値反復法 [value iteration] 一般化方策反
文系でも分かる「機械学習」のススメ　教師あり／なし、強化学習を解説
- 75 users
- www.itmedia.co.jp
- テクノロジー
- 2019/05/23
最近よく耳にするようになった「機械学習」という言葉。ビジネスで活用するには機械学習でできることとその限界を理解しておく必要があるだろう。前回記事では、機械学習には大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類が存在することを解説した。今回はこの3つについて、もう少し詳しく整理してみたい。連載：よくわかる人工知能の基礎知識いまや毎日のようにAI（人工知能）の話題が飛び交っている。しかし、どれほどの人がAIについて正しく理解し、他人に説明できるほどの知識を持っているだろうか。本連載では「AIとは何か」といった根本的な問いから最新のAI活用事例まで、主にビジネスパーソン向けに“いまさら聞けないAIに関する話”を解説していく。（編集：ITmedia村上）機械学習の種類人間でも、何の手掛かりもなしに学習することは不可能だ。ちょうどいま皆さんがしているように、何らかの解説
- 機械学習
- あとで読む
- AI
- 知識
- まとめ
- itmedia
IT特化型20日間リスニング強化学習サイトListen-ITオープンしました
- 71 users
- chikawatanabe.com
- テクノロジー
- 2010/02/15
何年も前からひっそり作り続けてきたオンライン学習サイトのListen-ITがついに完成しました。「読んでわかる英語は聞いてわかるようにする」のがゴール。IT関係の仕事で英語を使えるようになりたい人を対象に、IT関連の素材を使っています。読んで分かる英語が、聞いたらわからないのは当然だ、と思っていませんか？でも、全然当然じゃありません。「聞く練習」をしなければ聞けるようにならない、というだけのこと。というわけで、私自身が「こういうふうに英語を教えて欲しかった」と思う内容になっています。サイト構築にあたっては、北米大陸に住むエンジニア・デザイナーの皆さんの力を結集しました。内容は次の３つからなっています。１）ポッドキャスト IT関係の著名人のスピーチから10秒ほどを切り取って、その聞き取り方を説明しつつ、聞きながら自分でも口にする「シャドーイング」、聞き終わったところで文章を口にする「
- english
- 英語
- IT
- study
- webサービス
- 勉強
逆強化学習を理解する - Qiita
- 69 users
- qiita.com/neka-nat@github
- テクノロジー
- 2017/11/06
一般的な強化学習では、エージェントが環境からの報酬を得ることで最適な行動を獲得します。しかし現実の問題においては、この報酬を設計することが困難な場合があります。例えば運転技術を獲得する場合、うまい運転というのはただ目的地に速く着くだけでなく、急発進・急ブレーキしない、混んでなさそうな道を選ぶなど実際の報酬関数として考慮しづらい要素が存在します。逆強化学習ではエキスパートによる行動から報酬を推定することによって、このような表現しにくい報酬を求めることができます。逆強化学習の手法この記事では逆強化学習の手法としてよく取り上げられる手法の中で以下の3つについて解説したいと思います。線形計画法を用いた逆強化学習 Maximum Entropy IRL Maximum Entropy Deep IRL マルコフ決定過程(MDP) 逆強化学習に入る前にまずMDPについて説明します。マルコ
強化学習＋為替トレード戦略 – Momentum
- 68 users
- nekopuni.holy.jp
- テクノロジー
- 2014/08/24
概要・強化学習をトレード戦略に適用するとこんな感じになるのかなというテスト。我流なので何やってんのpgrという場合も生暖かい眼で何卒よろしくお願いします(ヘッジ文言^^) ・モンテカルロをぶん回すことでQ-valueを推定します。・今回は簡単のために初回訪問モンテカルロ(逐一訪問はめんどいのお) ・モメンタム戦略を試すため、状態として過去の自分自身のシャープレシオ(1ヶ月と3ヶ月)を使用しています。・行動決定にはEpsilon-Greedy法初回訪問モンテカルロいかんせん強化学習の学習自体が何をどう考えて良いか門外漢のため五里霧中＋Pythonも同じく門外漢のため五里霧中のため、自身の勉強方法も探索しっぱなしという^^;; これであってんのですかねえ詳しくは参考文献[1]のP.134を見てケロというかんじなのですが、・現在での状態を確認(状態=過去のシャープレシオ) ↓ ・そ
- python
- 強化学習
- 為替
- 金融
- finance
- テスト
- algorithm
強化学習入門 Part3 － AlphaGoZeroでも重要な技術要素！モンテカルロ木探索の入門－ - Platinum Data Blog by BrainPad
- 66 users
- blog.brainpad.co.jp
- テクノロジー
- 2018/04/05
強化学習入門の第3弾。「モンテカルロ木探索（Monte Carlo Tree Search, MCTS）」を解説するとともに、実際にAI同士で五目並べを戦わせてみました！こんにちは。アナリティクスサービス本部 AI開発部の山崎です。昨年も強化学習界隈は盛り上がりを見せていましたが、今なお、強化学習と言えば一番にAlphaGoを思い浮かべる人も多いのではないでしょうか。昨年、AlphaGoZeroという進化バージョンが発表され、一切のお手本を用いずに従来バージョンより強いということが話題になりました。（それまでのAlphaGoは、人のお手本をある程度学び、その後勝手に学んでいくものでした）さらに、AlphaGoZeroを一般化したアルゴリズムに修正したAlphaZeroが登場し、チェスや将棋でもその時点での最強ソフトを打ち負かしています。今回は、AlphaGoやAlphaGoZero
- AlphaGo
- 強化学習
- alphagozero
- AlphaZero
- 機械学習
- あとで読む
- AI
GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。
- 66 users
- ai-scholar.tech
- テクノロジー
- 2019/12/20
3つの要点 ✔️その１ DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その２モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その３囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成続きを読むには (3155文字画像6枚) AI-SCHOLARに登録いただく必要があります。 1分で無料で簡単登録するまたはログイン
- 機械学習
- MuZero
- AI
- 強化学習
- あとで読む
- 将棋