[2ページ] 強化学習の人気記事 159件

41 - 80 件 / 159件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

強化学習の検索結果41 - 80 件 / 159件

Google傘下のDeepMindがゲームのルールを教えられなくても勝ち方を勝手に学習していくAI「MuZero」を発表
- 27 users
- gigazine.net
- テクノロジー
- 2020/12/24
人工知能企業の「DeepMind」が、新たに「ルールの知識がゼロでも囲碁・将棋・チェス・Atariの勝ち方を自分で学んでいくことができるAI」を発表しました。「MuZero」と名付けられたAIは、「自分で考えるAI」への大きな一歩だとみられています。 Mastering Atari, Go, chess and shogi by planning with a learned model | Nature https://www.nature.com/articles/s41586-020-03051-4 MuZero: Mastering Go, chess, shogi and Atari without rules | DeepMind https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atar
- 人工知能
- あとで読む
- 将棋
- techfeed
- AI
- Google
タクシー配車アルゴリズムへの強化学習活用：Reinforcement Learning Applications in Taxi dispatching and repositioning domain
- 27 users
- speakerdeck.com/pacocat
- テクノロジー
- 2019/07/08
タクシー配車における強化学習活用の動向について、DiDi AI Labのアルゴリズムを勉強会用にまとめた資料です。 A survey of reinforcement learning application in taxi dispatching/repositioning domain. The papers are selected mostly from DiDi AI Lab's publications.
強化学習100題
- 26 users
- koki0702.github.io
- テクノロジー
- 2022/05/30
Web site created using create-react-app
- 強化学習
- AI
- tutorial
- 勉強
- あとで読む
ぼくのかんがえたさいきょうの強化学習アルゴリズム（古典強化学習編） - Qiita
- 25 users
- qiita.com/pocokhc
- テクノロジー
- 2024/02/13
この記事は自作している強化学習フレームワークの解説記事です。はじめに今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。このアルゴリズムは以下の状況でかなりの精度を誇ります。マルコフ決定過程なモデル状態が離散で現実的な数行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します基本アイデア基本的なアイデアは探索（Exploration）と活用（Exploitation）の分離です。強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて
機械学習の「Q学習」にベイズ推定を取り入れると一体何が起こるのか？
- 25 users
- gigazine.net
- テクノロジー
- 2020/11/02
機械学習における強化学習の一種である「Q学習」は、行動主体となるエージェントが現在の状況と未来の状況、そして得られる報酬から最適な答えを学習する手法です。そんなQ学習にベイズ推定の要素を取り込む研究が機械学習エンジニアのBrandon Da Silva氏によって行われています。 brandinho.github.io/bayesian-perspective-q-learning/ https://brandinho.github.io/bayesian-perspective-q-learning/ Q学習の基本的な考え方は「ある状態の価値(Q値)は、得られる報酬と次の時点の状態の価値から決まる」というもので、以下の式で表されます。「q(s, a)」は現在の状態からある行動を取った時の価値、「r」は得られる報酬、「q(s', a')」は次の地点での状態からある行動を取った時の価値を表して
強化学習とは | 機械学習との違い・深層強化学習・活用事例やその未来まで徹底解説 | Ledge.ai
- 25 users
- ledge.ai
- テクノロジー
- 2020/02/28
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
ネズミはかくれんぼが好きだった人間に見つけられると超音波で笑い声も - ライブドアニュース
- 25 users
- news.livedoor.com
- 学び
- 2019/09/13
by ライブドアニュース編集部ざっくり言うとドイツの大学の研究チームが、ネズミと「かくれんぼ」をする実験をしたネズミは徐々に学習し、かくれんぼを純粋に楽しんでいる様子だったという嬉しいときに見せる跳躍や、超音波の笑い声を出すなどしていたそう提供社の都合により、削除されました。概要のみ掲載しております。関連ニュースランキング総合国内政治海外経済 IT スポーツ芸能女子
- ネズミ
- 研究
- animal
- communication
- 動物
Offline Reinforcement Learning
- 25 users
- speakerdeck.com/aiueola
- テクノロジー
- 2021/03/24
チュートリアル @ 強化学習若手の会 https://young-reinforcement.github.io/ 解説記事（Qiita） https://qiita.com/aiueola/items/90f635200d808f904daf
強化学習で目指すF-ZERO王者（前編） - Qiita
- 24 users
- qiita.com/nobu_e758
- テクノロジー
- 2019/11/07
できたもの（途中経過） F-ZEROのコースをsegmentationする深層学習モデルをJetson Nano上で動かしています．480x288，30FPSで処理できています． Realtime "F-ZERO" course segmentation model is running on Jetson Nano. It is part of "gaming AI making challenge" as my personal work.#jetson #nvidia pic.twitter.com/AYCqE75JbG — nobu_e753 (@nobu_e753) September 27, 2019 キャプチャしたものはこちら（キャプチャの過程で負荷がかかり，レートが落ちています） Realtime "F-ZERO" course segmentation model is
ゲームAI、メタバース、スマートシティ
- 23 users
- speakerdeck.com/miyayou
- テクノロジー
- 2023/06/07
ゲームAI、メタバース、スマートシティについて解説します。
- 機械学習
- 強化学習
- AI
- ゲーム
- 人工知能
- あとで読む
- game
Kaggleシミュレーションコンペで強化学習に取り組むときのTips
- 22 users
- speakerdeck.com/kuto5046
- テクノロジー
- 2023/04/27
DeNA, GOのAI技術共有会で発表した資料です。 kaggleのシミュレーションコンペで強化学習に取り組む際に役立ちそうな情報をまとめたものを紹介します。
- kaggle
- 機械学習
- あとで読む
- 学習
- AI
「ITエンジニアのための強化学習理論入門」が発売されます - めもめも
- 22 users
- enakai00.hatenablog.com
- テクノロジー
- 2020/06/18
www.amazon.co.jp 表題の書籍が技術評論社より発売されることになりました。執筆にご協力いただいた方々には、あらためてお礼を申し上げます。販売開始に先立って、「はじめに」「目次」「図表サンプル」を掲載させていただきますので、先行予約される方の参考にしていただければと思います。はじめに「Q LearningとSARSAの違いを説明してください。」皆さんは、この質問に即答できるでしょうか？本書を読めば、自信を持って答えられます！ —— と、謎の宣伝文句（？）から始まりましたが、少しばかり背景を説明しておきましょう。 2015年に『ITエンジニアのための機械学習理論入門』(技術評論社)を出版させていただいた後、驚くほどの勢いで機械学習の入門書が書店にあふれるようになりました。そしてまた、回帰モデルによる数値予測、分類モデルによる画像データの識別など、教師データを用いた機械学習モ
- 強化学習
- PRML
- book
- アルゴリズム
- HotEntry
- AI
強化学習コンペで交通×AIに挑戦：KDDCUP2020 RL Track 世界3位獲得！ - Qiita
- 22 users
- qiita.com/dcm_demizu
- テクノロジー
- 2020/12/25
はじめに Happy Holidays 🎉 NTTドコモの出水です．最終日の本記事では，ドコモR&Dチームで参加した強化学習コンペティションの取組みと活用方法をお届けします！コンペのテーマは「交通$\times$AI」で，タクシーの配車割当てや再配置 (Taxi dispatching & repositioning) を最適化するAIの開発でした🚖 Source : KDD Cup 2020 Reinforcement Learning Competition ドコモR&Dでは，データサイエンス分野の技術力向上を目的に，世界最高峰のデータ分析コンペティションKDD Cupへ毎年参加しています． 2019年は１部門で優勝，続く2020年は３部門で入賞を果たしました1．世界最高峰のデータ分析競技会「#KDDCUP 2020」の3部門で入賞 2016年から参加を続け、今回の入賞は2年連
オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
- 21 users
- horomary.hatenablog.com
- テクノロジー
- 2023/01/10
Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transformer とはオフライン強化学習の新たなパラダイム言語を生成するように行動を生成する自然言語風アプローチのメリット条件付き生成：Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer（NeurIPS 2022） Uni[Mask]（NeurIPS 2022）： MaskedLMの導入 GATO（2022）：超汎用エー
Kaggleコンペティションの振り返り - ANDPAD Tech Blog
- 20 users
- tech.andpad.co.jp
- テクノロジー
- 2022/04/01
こんにちは！今回の記事はデータ基盤チームに所属しているエンジニアよりお届けいたします。 ANDPADのデータ基盤チームはプロダクト利用状況の分析、分析基盤の整備、機械学習技術のプロダクトへの導入検討など主にデータに関わる業務を担当しています。チームメンバーには技術研鑽に積極的な方が多く、雑談の際はプライベートで行っている分析の話やデータ分析の大会の話で盛り上がることがあります。本記事では過去に参加したKaggleコンペティションについての話を紹介させていただきます。チームの雰囲気について感じていただけますと幸いです。今回参加したコンペティション https://www.kaggle.com/c/lux-ai-2021 Lux AIというコンペティションで、強いゲームAIを開発することが目的となります。 Lux AIは二人で行うターン制の対戦ゲームです。それぞれのプレーヤーはユニット
- Kaggle
- あとで読む
【強化学習】ついに人間を超えた！？Agent57を解説/実装してみた（Keras-RL） - Qiita
- 19 users
- qiita.com/pocokhc
- テクノロジー
- 2020/07/12
強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたようです。早速実装してみました。 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない点はご了承ください ※解釈違いの内容がある可能性もご注意ください（理解が追いついていない部分があります）コード全体本記事で作成したコードは以下です。 github GoogleColaboratory(実行結果付き) ※GoogleColaboratoryはmultiprocessingの相性が悪いらしく1Actorのみの学習となります) ※MountainCarの学習をのせています追記：自作フレームワークを作成しています。そちらの実装の方が正確なコードとなります。目次構成としては前半が技術解説で後半が実装の説明になります。 Agent57とは NGU(Never Give Up
PFN、PyTorchユーザ向けに深層強化学習ライブラリ「PFRL」を公開 | AI専門ニュースメディア AINOW
- 19 users
- ainow.ai
- テクノロジー
- 2020/07/31
最終更新日： 2021年12月13日株式会社Preferred Networks（PFN）は、PyTorchユーザー向けの深層強化学習ライブラリ「PFRL（ピーエフアールエル）」を、2020年7月30日にオープンソースソフトウェア（OSS）として公開しました。 PFRLは、PFNが深層学習フレームワークをChainerからPyTorchへ移行してPyTorchコミュニティと連携を強化する一環で、ChainerRLの後継ライブラリとして公開されました。 PFNは2019年12月に深層学習フレームワーク「Chainer」のメジャーアップデートを終了すると発表し、研究開発基盤をFacebook社の「PyTorch」に順次移行しました。【PFRLの特長】最新の研究に基づく深層強化学習アルゴリズム・深層強化学習機能が実装。それらを比較したり、組み合わせたりして実験することが可能。特に重要な9
大規模言語モデル時代のHuman-in-the-Loop機械学習
- 19 users
- speakerdeck.com/yukinobaba
- テクノロジー
- 2023/07/25
画像の認識・理解シンポジウム（MIRU2023）チュートリアル
Discovering novel algorithms with AlphaTensor
- 18 users
- deepmind.google
- テクノロジー
- 2022/10/06
Research Discovering novel algorithms with AlphaTensor Published 5 October 2022 Authors Alhussein Fawzi, Matej Balog, Bernardino Romera-Paredes, Demis Hassabis, Pushmeet Kohli First extension of AlphaZero to mathematics unlocks new possibilities for research Algorithms have helped mathematicians perform fundamental operations for thousands of years. The ancient Egyptians created an algorithm to mu
大規模言語モデルのための強化学習｜npaka
- 18 users
- note.com/npaka
- テクノロジー
- 2023/04/24
以下の記事が面白かったので、軽く要約しました。・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いました。「教師あり学習」 (Instructionチューニング) で十分ではないでしょうか？私は、ある程度納得のいく理論的な議論を思いつきました。そして、特にChatGPTのようなモデルには、強化学習のケースを支持するだけでなく、それを必要とする追加の論拠があることに気がつきました。この追加の議論は、OpenAIのJohn Schulmanによる講演の（前半部分で）綴られています。この投稿は、彼の主張をより多くの言葉で繰り返し、また、明確
180分待ち！ AIロボットカー競技｢DeepRacerリーグ｣日本初開催、これは面白い【AWS Summit Tokyo 2019】
- 17 users
- www.businessinsider.jp
- テクノロジー
- 2019/06/13
千葉県の幕張メッセで6月12日～14日の3日間開催される｢AWS Summit Tokyo 2019｣が開幕した。会期中には基調講演やさまざまな事例セッションと展示が行われる。注目の展示の1つに、アマゾンが2018年の自社カンファレンス｢re:Invent2018｣で発表した機械学習を学ぶためのAIロボットカー競技｢DeepRacerリーグ｣が開催される。会期を通してコースを完走するタイムを競い、トップのチームは今年のre:Invent2019に招待されるという太っ腹な企画だ。国内初開催とあって参加希望者が殺到し、待ち時間は一時、180分になっていた。
- DeepRacer
- aws
- amazon
- あとで読む
AlphaDev discovers faster sorting algorithms
- 16 users
- deepmind.google
- テクノロジー
- 2023/06/08
Impact AlphaDev discovers faster sorting algorithms Published 7 June 2023 Authors Daniel J. Mankowitz and Andrea Michi New algorithms will transform the foundations of computing Digital society is driving increasing demand for computation, and energy use. For the last five decades, we relied on improvements in hardware to keep pace. But as microchips approach their physical limits, it’s critical t
実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている
- 15 users
- gigazine.net
- テクノロジー
- 2023/02/17
AI開発企業のDeepMindが開発し、人間のトップ棋士を打ち負かしたことで話題を呼んだ囲碁AIの「AlphaGo」や、あらゆるボードゲームを学習できる進化版AIの「AlphaZero」のコアとなる部分が、実はひっそりとGitHubでオープンソース化されていると指摘されています。 Do you know that DeepMind has actually open-sourced the heart of AlphaGo & AlphaZero? It’s hidden in an unassuming repo called “mctx”: https://t.co/GpNtwH9BxA It provides JAX-native Monte Carlo Tree Search (MCTS) that runs on batches of inputs, in parallel, a
GitHub - lucidrains/PaLM-rlhf-pytorch: Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM
- 15 users
- github.com/lucidrains
- テクノロジー
- 2022/12/26
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
【OpenAI】ロボットハンドとAIでルービックキューブを解く理由（論文解説） | AIDB
- 14 users
- ai-data-base.com
- テクノロジー
- 2021/07/27
人型ロボット完成へのロードマップ人間のように動作するロボットを作ることは、ロボット工学の壮大な課題です。機械学習は、ロボットを手動でプログラミングする代わりに、センサ情報を用いてロボットシステムを適切に制御する方法を学習することで、これを実現する可能性を秘めています。学習には膨大な量の学習データが必要ですが、物理的なシステム上でそれを取得するのは難しく、コストもかかります。そのため、すべてのデータをシミュレーションで収集する手法が注目されています。しかし、シミュレーションは実行環境やロボットを細部まで正確に捉えているわけではないため、結果として生じるシミュレーションのデータを現実へ変換させる問題も解決する必要があります。ロボットに人間のような動作をさせる課題において、実際にどんな研究が行われているのでしょうか。OpenAIのIlge Akkayaら研究者の発表を紹介します。研究者
強化学習とは何か？「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか
- 13 users
- www.sbbit.jp
- テクノロジー
- 2021/01/18
人工知能（AI）技術の1つである機械学習の中には、教師あり学習や教師なし学習のほかに、「強化学習」のように「行動から学ぶ」タイプの学習も存在します。この手法は人間や動物の学習方法と似ており、実社会では非常に有用な学習方法になると考えられています。そこで、似たような仕組みを持つ「遺伝的アルゴリズム」と合わせて「強化学習」について解説します。合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー（翔泳社）』『図解これだけは知っておきたいAIビジネス入門（成美堂）』、執筆協力
- あとで読む
深層学習が強化学習において果たす役割とは？『現場で使える！Python深層強化学習入門』から紹介
- 13 users
- codezine.jp
- テクノロジー
- 2019/08/30
本記事は『現場で使える！Python深層強化学習入門強化学習と深層学習による探索と制御』から抜粋したものです。掲載にあたり、一部を編集しています。この記事では強化学習のアルゴリズムを理解するための前段として、機械学習の概要について説明します。さらに、機械学習において強化学習が他の学習法と本質的に異なる点を明らかにしつつ、その有用性について解説します。最後の節では、深層学習が強化学習において果たす役割について考察します。 1.1　機械学習の分類昨今の人工知能の目覚ましい発展を支えている基礎技術は、深層学習や強化学習に代表される機械学習であると言えます。本節では、機械学習を構成する3つの手法、すなわち、教師あり学習、教師なし学習、強化学習の概要について説明します。近年、人工知能あるいはAI（Artificial Intelligence）という言葉をよく耳にします。人工知能と聞くとSF
深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita
- 13 users
- qiita.com/karaage0703
- テクノロジー
- 2020/12/24
追記：マリオの全ステージクリアを目指します！(2021/12/30) 深層強化学習で学習したAIマリオで全ステージクリアを目指すプロジェクトをGitHub Pagesで立ち上げました！参加者募集中です！詳細は以下参照ください深層強化学習のPyTorchチュートリアルが日本語訳されて…ない！ PyTorch勉強中の人にとって助けになるのが公式のチュートリアルです。そんな公式チュートリアル @sugulu_Ogawa_ISID さんが日本語訳して公開してくださっています。今、深層強化学習に興味津々丸なので、早速確認してみました。すると… ない！ PyTorchのチュートリアル、マリオをプレイするものあって、めっちゃ面白そうなんですよね。というわけで、訳される前のPyTorchの深層強化学習のマリオチュートリアルをやってみました。ちなみに、PyTorchチュートリアル（日本語翻訳版）の
TechCrunch | Startup and Technology News
- 12 users
- jp.techcrunch.com
- テクノロジー
- 2019/11/28
Tomorrow’s the big day, and we’re expecting big things – well, one really big thing for sure. Apple will kick of WWDC 2023 at 10AM PT Monday June 5 with its customary keynote. As ever, the event
GCTの学習メソッドは強化学習の常識を覆すかも知れない | やねうら王公式サイト
- 12 users
- yaneuraou.yaneu.com
- テクノロジー
- 2021/04/06
昨年の将棋ソフトのオンライン大会である電竜戦で優勝したGCT。最近、floodgate(コンピュータ将棋のオンライン対局場)にgcttest_x6_RTX2080tiという強いソフトが登場した。これはそのGCTの開発者である加納さんが放流されている評価関数の育成中のGCTである。このソフトが2080TiというGPUの性能からすると強すぎるので、2080Tiの6枚刺しではないか、シングル(1枚刺し)だろという議論(罵り合い？)がなんとかちゃんねるでさかんに行われている。 429 名無し名人 (ﾜｯﾁｮｲ a301-xfeT)2021/04/06(火) 13:32:52.91ID:1YM8Ydqj0 加納さんのツイートを見たけど、どこにもgcttest_x6_RTX2080tiが2080Tiシングルっていうツイートは見当たらないよ。前に序盤定跡を少しだけ使用してレート4100くらいのgct
Microsoft、データ分析／AIで「Azure Synapse Link」や「リスポンシブルAI」を発表
- 12 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/05/20
Microsoft、データ分析／AIで「Azure Synapse Link」や「リスポンシブルAI」を発表：Microsoft Build 2020 Microsoftは2020年5月19日（米国時間）、「Microsoft Build 2020」で、データ分析や機械学習／AIに関する複数の発表を行った。これには分析のためのデータのバッチ移動作業を排除する「Azure Synapse Link」や、説明可能でバイアスのないAIを目指す「Responsible AI」、AIのためのスーパーコンピューターが含まれる。 Microsoftは2020年5月19日（米国時間）、オンラインイベント「Microsoft Build 2020」で、データ分析や機械学習／AIに関する複数の発表を行った。これには分析のためのデータのバッチ移動作業を排除する「Azure Synapse Link」や、説明可能
- Azure
- 機械学習
- HotEntry
- あとで読む
- AI
- Microsoft
ITエンジニアのための強化学習理論入門
- 11 users
- gihyo.jp
- テクノロジー
- 2020/08/26
2020年7月17日紙版発売 2020年7月17日電子版発売中井悦司　著 A5判／296ページ定価3,278円（本体2,980円＋税10%） ISBN 978-4-297-11515-9 Gihyo Direct Amazon 楽天ブックスヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表などこの本の概要前作の『ITエンジニアのための機械学習理論入門』から，5年経過しましたが，AI（人工知能）や機械学習に対しての期待と関心はまったく衰えません。むしろ機械学習の利用はIT業界で当然のものとなり，さらなる活用がさまざまな場所で行われています。前作では一般的な機械学習について解説しましたが，試行錯誤しながら1つの解をもとめていく「強化学
Illustrating Reinforcement Learning from Human Feedback (RLHF)
- 11 users
- huggingface.co
- テクノロジー
- 2022/12/11
Illustrating Reinforcement Learning from Human Feedback (RLHF) This article has been translated to Chinese 简体中文 and Vietnamese đọc tiếng việt. Language models have shown impressive capabilities in the past few years by generating diverse and compelling text from human input prompts. However, what makes a "good" text is inherently hard to define as it is subjective and context dependent. There are
- research
- あとで読む
自作AIがスーパーマリオ1-1をやっとのことでクリアした - Qiita
- 11 users
- qiita.com/temmaru
- テクノロジー
- 2022/04/18
はじめに今更感満載ですが・・・ ↑　↑　↑　このマリオ君が ↑　↑　↑　こうなるように頑張った話！ Gitは以下。環境構築の流れとかも以下を参照。開発環境プラットフォームとか Hyper-V Ubuntu18 Anaconda Python3.8 Tensorflow2.2.0など、Pythonライブラリ色々 (envs/conda_env.yaml参照) エミュレータ FCEUX 2.2.2 開発環境以外の動作確認済み環境 GPU on WSL2環境 WSL2 Ubuntu20 GPU環境 (cuda toolkit 10.2) それより上のレイヤは開発環境と同様 ⇒　学習がCPUよりとても速かった。あと、WSLなのでHyper-Vより軽量。ここの詳細はメインとは逸れるので、末尾に記載。マリオが動くまで AnacondaとエミュレータであるFCEUX 2.2.2の環境構築は終
第4回　手を動かして強化学習を体験してみよう（自動運転ロボットカーDeepRacer編）
- 11 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2019/08/22
第4回　手を動かして強化学習を体験してみよう（自動運転ロボットカーDeepRacer編）：AWS DeepRacer入門（1/3 ページ）強化学習が初めての人に最適な「AWS DeepRacerのコンソールとシミュレーション環境」を使って、ディープラーニングを体験してみよう。コンソール上で強化学習の各ハイパーパラメーターを設定してモデルに学習させ、さらに評価し、バーチャルレースにデプロイするまでの手順を解説する。連載目次 AWS DeepRacerは、自律走行を行うロボットカーである（第1回詳しく説明した）。その走行エンジンの作成には、ディープラーニングの「強化学習」と呼ばれる手法が用いられる（第2回詳しく説明した）。強化学習による「学習」や「評価」は、シミュレーション環境（＝シミュレーター）上で行えるようになっており、車の走り方、つまり強化学習のハイパーパラメーター（＝学習を調整する
- AWS
- あとで読む
強化学習「理論」入門
- 10 users
- speakerdeck.com/enakai00
- テクノロジー
- 2022/06/06
2022年度 TopSE「機械学習概論」コースの一部として使用した講義資料です。 https://www.topse.jp/ja/curriculum-lectures.html
- 強化学習
- あとで読む
第1回　強化学習が楽しく学べる自律走行レーシングカー「AWS DeepRacer」とは？
- 10 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2019/07/08
連載目次 AWS DeepRacerを知っているだろうか？　カンファレンス「AWS re:Invent 2018」（2018年11月25日開催）の基調講演で発表されてから注目を集め（動画1）、2019年5月23日開催の「AWS Summit Tokyo 2019」で日本でもお披露目された。 DeepRacerは、自律走行を行うレーシングカーで、その走行エンジンに機械学習モデル（より厳密には、ディープラーニングの深層強化学習と呼ばれる手法）が用いられる。その機械学習モデルは、独自のアルゴリズム（厳密には、強化学習の報酬関数など）を手動で定義したうえで、AWS上で学習＆評価して、最終的に独自のモデルに作り上げる仕組みとなっている。作り上げたモデルは、コンピュータ上のバーチャルレースや、現実での実機レースでの走行エンジンとして利用できる。走行タイムを他の人と競い合えるので、世界で一番優れた機械
The Paths Perspective on Value Learning
- 10 users
- distill.pub
- 学び
- 2019/10/01
Introduction In the last few years, reinforcement learning (RL) has made remarkable progress, including beating world-champion Go players, controlling robotic hands, and even painting pictures. One of the key sub-problems of RL is value estimation – learning the long-term consequences of being in a state. This can be tricky because future returns are generally noisy, affected by many things other
- 強化学習
- あとで読む
Agent57: Outperforming the human Atari benchmark
- 9 users
- deepmind.google
- テクノロジー
- 2020/03/31
Research Agent57: Outperforming the human Atari benchmark Published 31 March 2020 Authors Adrià Puigdomènech, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell The Atari57 suite of games is a long-standing benchmark to gauge agent performance across a wide range of tasks. We’ve developed Agent57, the first deep reinforcement learning agent to obtain a
MATLAB および Simulink による強化学習
- 9 users
- jp.mathworks.com
- テクノロジー
- 2020/07/19
最近のニュースで、強化学習のアルゴリズムがどのようにして囲碁、Dota 2、Starcraft 2 などのゲームでプロを破ったかが取り上げられました。強化学習は、機械学習の一種であり、ビデオゲームからロボット工学、自動運転車のような複雑な用途における人工知能の使用を可能にします。プロジェクトで強化学習の技術を活用することに興味があっても、これまで一度も使ったことがないとしたら、何から始めたらいいでしょうか。この ebook は、MATLAB® および Simulink® で強化学習を始められるように、用語を解説し、例やチュートリアル、評価版ソフトウェアをご紹介します ebook をダウンロードすると、以下の内容を学習することができます。セクション 1: 基礎の理解と環境の設定強化学習の基礎と、従来の制御設計との類似点や相違点を学びます。教師あり学習、教師なし学習、強化学習の間の相違