いまのDeep Learning系の上位の将棋ソフトは、AlphaZeroのアーキテクチャに倣っていて、局面を入力し、Policy(次のよさげな一手が最大値になる)とValue(期待勝率)を出力している。では、Policyだけで1手も先の局面を調べない場合、どれくらいの強さになるのだろうか? 将棋ソフトPonanzaが2017年にAlphaGoを参考に、Deep Learning(以下DLと略す)を取り入れた時、「Policyだけでアマ初段か二段ぐらいある」と作者が言っていた。周りの開発者はほんまかいな…と半信半疑であった。Ponanzaはソースコードも実行ファイルも何も公開されておらず、追試もできない状況だったので、つい最近まで私も半信半疑であった。 まず、当時のDLを取り入れたPonanzaについては、以下の資料でそのアーキテクチャについて触れられている。 https://www.sl