自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/ydclab_P002

24 usersがブックマークコメント

記事へのコメント2件

注目コメント
新着コメント

sh19910711 "見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいました / 盤面情報を Pandas の DataFrame 形式に変換し Notebook の組み込み関数 display関数にて表示、更新 / handle = display(df, display_id=True)" 2023

2024/04/25 リンク

misshiki “CNNを用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。”

2024/04/25 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita

PyTorch の社内勉強会の題材にしたいと思い立ち、畳み込みニューラルネットワーク（Convolutional Neura... PyTorch の社内勉強会の題材にしたいと思い立ち、畳み込みニューラルネットワーク（Convolutional Neural Network, CNN）を用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいましたが。動作環境 Google Colaboratory の CPUランタイムにて動作を確認しました。概略おおまかな処理フローは次図の通りです。盤面情報を受け取った先攻方策と後攻方策は、○×を書き込む場所を返します。この先攻方策と後攻方策に AI を実装し自己対戦させます。盤面情報は、空白マスをゼロ、先攻 ○ を+1、後攻 × を-1とした形状 (H,W)=(3,3) の二次元配列とします。盤面座標は、場合により二次元座標と1次元に展開したフラット座標を使い分けます。三目並べの