タグ

強化学習に関するh5dhn9kのブックマーク (2)

  • 「AlphaGo」が進化 囲碁の打ち手教えずに従来型破る | NHKニュース

    囲碁のトップ棋士に勝った人工知能「AlphaGo」が進化し、打ち手を全く教えずに白紙の状態から学習して従来型の人工知能を破ったと開発した会社が発表し、人工知能はもはや人間の知識に制約されなくなったとしています。 この会社が開発した人工知能「AlphaGo」は、囲碁の名人の打ち手のデータを基に学習を重ね、ことし世界最強とされる中国のトップ棋士を破り、大きな話題となりました。 今回、新たに開発した「AlphaGoZero」は答えを導くデータがなくても、人工知能がみずから試行錯誤を繰り返して、よりよい答えにたどり着く、「強化学習」という手法を取り入れたということです。 そして、囲碁の基ルール以外には何も教えず、わずか3日間で500万回の対戦をひとりでに繰り返して強さを身につけた結果、トップ棋士を破った従来型の人工知能に圧勝したということです。 さらに、新型の人工知能は白紙の状態から学習する中で

    「AlphaGo」が進化 囲碁の打ち手教えずに従来型破る | NHKニュース
    h5dhn9k
    h5dhn9k 2017/10/19
    将棋も結構前からAI独力で学習した方が強くなってるよね。『明確なルールと結果』が得られる問題なら既に全面的に人間よりも正確なのかも。 あー、後、充分な試行回数も必要か。
  • 人間の棋譜を用いずに評価関数の学習に成功 | やねうら王 公式サイト

    今回、新たに評価関数をゼロベクトルから学習させた。elmo絞りを使うと意外と簡単にApery(WCSC26)相当の棋力を持つ評価関数にまで出来るようだ。追試できるように記事の前半に手順を記しておく。また、記事の後半には何回目のelmo絞りでどの程度の強さであったかも示す。 elmo絞りを知らない人のために簡単に説明すると、今回、将棋ソフトが人間の棋譜を用いずに勝率の高い形を強化学習でソフト自らが自動的に覚えたということである。今回、1回に生成している教師の数は5億局面。対局回数で言うと400万局程度であろうか。それだけの対局を終局までこなすことで、どういう駒の位置関係だと勝ちやすいのかを学習したということだ。 私は以前、elmo絞りを用いずにある程度の強さまでは到達出来たのだが、計算資源を湯水の如く消費するので途中で断念してしまった。今回はそのリベンジである。題して「Re : ゼロから始め

    h5dhn9k
    h5dhn9k 2017/06/16
    またブレイクスルー起きたんか……。もう異次元の棋力に達するのだろうな……。しかもオープンソースなので今後はコレが最低ラインになるという……。
  • 1