CSAの例会のコメントを見ると、柿木さんは「Bonanzaに習って私も学習してみました」と書かれてました、 このような集められる情報を、それこそ目を皿のようにして読みました。 TD法も勉強しました。最急降下法も勉強しました。ロジステロの学習法も学びました。 はじめは、ロジステロのように学習しようと思いましたが、 「正確な評価値?」分かりません_| ̄|○ 終盤ではなく、序盤・中盤で、正確な値は分からない。 Bonanzaがやっている学習は、正確な評価値を出すように評価関数を最適化しているのではなくて、 棋譜の手とよく一致するように評価関数を最適化しているのでした。 では、TD法とどう違うのか? TD法による学習は、棋譜ではなく、相手と対局して、状況の変化を利用していました。 オセロは将棋のように静止探索をしないでいいので、ある局面の評価=その局面の評価で済むのです。 将棋は違います。 それを