タイトル「MuZero」を検索 - はてなブックマーク

1 - 8 件 / 8件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

MuZeroの検索結果1 - 8 件 / 8件

GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。
- 66 users
- ai-scholar.tech
- テクノロジー
- 2019/12/20
3つの要点 ✔️その１ DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その２モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その３囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成続きを読むには (3155文字画像6枚) AI-SCHOLARに登録いただく必要があります。 1分で無料で簡単登録するまたはログイン
- 機械学習
- MuZero
- AI
- 強化学習
- あとで読む
- 将棋
Google傘下のDeepMindがゲームのルールを教えられなくても勝ち方を勝手に学習していくAI「MuZero」を発表
- 27 users
- gigazine.net
- テクノロジー
- 2020/12/24
人工知能企業の「DeepMind」が、新たに「ルールの知識がゼロでも囲碁・将棋・チェス・Atariの勝ち方を自分で学んでいくことができるAI」を発表しました。「MuZero」と名付けられたAIは、「自分で考えるAI」への大きな一歩だとみられています。 Mastering Atari, Go, chess and shogi by planning with a learned model | Nature https://www.nature.com/articles/s41586-020-03051-4 MuZero: Mastering Go, chess, shogi and Atari without rules | DeepMind https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atar
- 人工知能
- あとで読む
- 将棋
- techfeed
- AI
- Google
DeepMind、ルールを教えなくても「パックマン」などでハイスコアを出せるAIシステム「MuZero」
- 19 users
- www.itmedia.co.jp
- テクノロジー
- 2020/12/24
DeepMind、ルールを教えなくても「パックマン」などでハイスコアを出せるAIシステム「MuZero」米Alphabet傘下のDeepMindは12月23日（現地時間）、ルールを教えなくてもゲームでハイスコアを出せる新しいAIシステム「MuZero」を発表した。同社はこれまで、「AlphaGo」、「AlphaGo Zero」、「AlphaZero」とAIシステムを進化させてきた。AlphaGoはゲームのルールを習得し、さらに過去の人間による囲碁の膨大な対戦データで学習することで能力を上げる必要があった。AlphaGo Zeroはルールを教えるだけで囲碁に強くなり、AlphaZeroは囲碁だけでなく、将棋とチェスもルールを教えるだけで強くなった。 MuZeroは、AlphaZeroの先読みツリー検索機能と、環境の中で最も重要な側面のみに焦点を当てて学習するモデルを組み合わせることで、人
最強AI「MuZero」とは　ルールを知らないのにゲームで勝ちまくる
- 6 users
- xtrend.nikkei.com
- テクノロジー
- 2021/03/30
囲碁、将棋、チェスとあらゆるゲームで人間を破り、その名をとどろかせた「Alpha」。このシリーズから2020年に最新のかつ最強のAI（人工知能）「MuZero（ミューゼロ）」についての論文が発表された。驚くべきは、ゲームのルールという基本的な情報すら与えられていない状態から出発しているという点だ。その“脳内”のメカニズムを解き明かす。 2016年、Google傘下のDeepMind社が開発した囲碁AI、AlphaGo（アルファゴー）が、当時世界最強とされた囲碁棋士イ・セドルを破り世界に衝撃をもたらした。そして翌17年には、人間の棋譜データを使わず、ゲームの戦略に関する知識が文字通り「ゼロ」の状態から学習した囲碁AI、AlphaGo Zero（アルファゴーゼロ）がそのAlphaGoを超えた。そしてAlphaGo Zeroの発表からわずか数カ月後には、囲碁におけるAlphaGoや人類のトップ
- deeplearning
- 将棋
- 機械学習
- ai
- game
【強化学習】MuZeroを解説・実装 - Qiita
- 6 users
- qiita.com/pocokhc
- テクノロジー
- 2022/08/11
この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。前：AlphaZero 次：Stochastic MuZero 今回はAlphaZeroの後継であるMuZeroについて解説します。 MuZero AlphaZeroは木探索時にゲームのルールを使うという問題がありました。（1手進めた後、盤面の状態を知る必要がある）これではルールを知っている環境にしかAlphaZeroが使えないので、強化学習で一般的に想定されるマルコフ決定過程(MDP)の環境にも使えるように拡張したアルゴリズムがMuZeroです。（以降本記事で環境を区別する場合、マルコフ決定過程(MDP)の環境をAtari環境、囲碁や将棋などをボードゲーム環境と言って区別します） MuZeroではゲームのルール自体を学習する事で、ゲームのルールが不明なMDP環境下でも学習を可能に
- 強化学習
MuZeroの論文を読む（概要、導入、先行研究） - TadaoYamaokaの開発日記
- 6 users
- tadaoyamaoka.hatenablog.com
- テクノロジー
- 2019/11/22
MuZeroの論文を読んでいきます。基本的にだらだら訳していくだけです。途中で感想を書いていきます。概要プランニング能力を備えたエージェントを構築することは、人工知能の追求における主な課題の1つである。ツリーベースのプランニング方法は、完全なシミュレーターが利用できるチェスや囲碁などの挑戦的なドメインで大成功を収めている。ただし、実際の問題では、環境を支配するダイナミクスはしばしば複雑で未知である。この研究では、ツリーベースの探索と学習モデルを組み合わせることにより、基礎となるダイナミクスの知識がなくても、挑戦的で視覚的に複雑な領域で超人的なパフォーマンスを実現するMuZeroアルゴリズムを紹介する。 MuZeroは、反復的に適用されたときに、プランニングに最も直接関係する量（報酬、行動選択方策、および価値関数）を予測するモデルを学習する。モデルベースのプランニングアプロー
DeepMind「MuZero」の破壊力：モデルベースの強化学習（2/4） - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報
- 4 users
- thebridge.jp
- テクノロジー
- 2020/12/31
（前回からのつづき）計画を立てる能力によって人間は問題を解決し、迅速に将来について決定を下すことが可能だ。 AI領域ではこれを、先読みツリー探索と呼ばれるアプローチもしくはモデルベースのプランニングによって研究者が再現しようとした。 AlphaZeroなどの先読み探索を用いたプログラムは、チェッカー、チェス、さらにはポーカーなどの古典的なゲームで目覚ましい成功を収めている。ただし先読み探索では、ゲームのルールや正確な物理シミュレータなど、環境の変化に関する情報が必要だ。モデルベースのシステムは、環境の詳細なモデルを学習しそれを使用したプランニングを目的としている。しかしモデリングの複雑さは、歴史的にもこれらのアルゴリズムが視覚情報が豊富な領域で争うことの困難さを意味している。この点についてMuZeroは、AlphaZeroのモデルと先読みのツリー探索を組み合わせている。 MuZeroで
- 機械学習
- techfeed
DeepMind「MuZero」の破壊力：人工知能がチェスを学ぶ方法（1/4） - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報
- 3 users
- thebridge.jp
- テクノロジー
- 2020/12/29
Photo by JESHOOTS.com from Pexels 昨年末に学術雑誌Scienceに掲載された論文で、Googleの親会社であるAlphabetのDeepMindは、チェスや将棋、囲碁を自身で学習しマスターすることができるAIシステムAlphaZeroについての詳細を公開した。いずれのケースでも、世界チャンピオンを打ち負かす、全ての情報が揃った（つまりゲーム内でそれまでに行われた行動に基づいて次の意思決定が行われる）2人用のゲームを学習させる方法について示した。しかし、AlphaZeroには自分がプレイすることを課せられたゲームのルールを知っているという優位性があった。DeepMindのチームは、ルールを自ら学習することができる高性能の機械学習モデルを追求するために、ツリーベースの探索（ツリーはセット内から情報を見つけるために使用されるデータ構造）と学習済みモデルを組み合
- あとで読む