タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

将棋と強化学習に関するendo_5501のブックマーク (1)

  • 人間の棋譜を用いずに評価関数の学習に成功 | やねうら王 公式サイト

    今回、新たに評価関数をゼロベクトルから学習させた。elmo絞りを使うと意外と簡単にApery(WCSC26)相当の棋力を持つ評価関数にまで出来るようだ。追試できるように記事の前半に手順を記しておく。また、記事の後半には何回目のelmo絞りでどの程度の強さであったかも示す。 elmo絞りを知らない人のために簡単に説明すると、今回、将棋ソフトが人間の棋譜を用いずに勝率の高い形を強化学習でソフト自らが自動的に覚えたということである。今回、1回に生成している教師の数は5億局面。対局回数で言うと400万局程度であろうか。それだけの対局を終局までこなすことで、どういう駒の位置関係だと勝ちやすいのかを学習したということだ。 私は以前、elmo絞りを用いずにある程度の強さまでは到達出来たのだが、計算資源を湯水の如く消費するので途中で断念してしまった。今回はそのリベンジである。題して「Re : ゼロから始め

    endo_5501
    endo_5501 2017/06/12
    “プロの棋譜なんて最初から要らんかったんや〜”
  • 1