エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
AlphaGoで学ぶ強化学習 ~次の一手を予測する将棋AIを作ってみよう~ - OPTiM TECH BLOG
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
AlphaGoで学ぶ強化学習 ~次の一手を予測する将棋AIを作ってみよう~ - OPTiM TECH BLOG
こんにちは、R&Dの宮城です。 将棋の竜王戦が世間を賑わせる中、オプティムでも人知れず将棋AI vs 私の... こんにちは、R&Dの宮城です。 将棋の竜王戦が世間を賑わせる中、オプティムでも人知れず将棋AI vs 私の熱闘が繰り広げられていました。 今回の記事では強化学習について簡単に説明した後、次の一手を予測する将棋AIを作成し、作成した将棋AIと実際に戦ってみます。 ※ 作成した将棋AIは強化学習ではなく教師あり学習で訓練されたものです。 強化学習の概要 将棋の補足説明 次の一手を予測するPolicyNetwork作成 入力特徴量 駒の位置を表す特徴 持ち駒の有無を表す特徴 入力特徴量まとめ 出力クラス PolicyNetwork実装 PolicyNetwork訓練 実戦 結果 おわりに ライセンス表記 強化学習の概要 強化学習は機械学習手法の一つです。 教師あり学習: 入力と入力に対する正しい出力(正解データ)が与えられ、出力が正解データに近づくように学習する 教師なし学習: 入力のみが与えら