エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
P値とQ値 (Vol.11)
div.hs-menu-wrapper > ul > li" data-pacnav-mobile-width="820"> AISIA AIの実用化 外観検査システム ... div.hs-menu-wrapper > ul > li" data-pacnav-mobile-width="820"> AISIA AIの実用化 外観検査システム ブログ はじめに 前回は「探索(Explore)」と「活用(Exploit)」のトレードオフがある中で最大の報酬を得る考えとしてバンディットアルゴリズムを説明しました。また、そのトレードオフを気にせずに探索し続けた結果で近似線を求める古典的なシミュレーション法であるモンテカルロ法にも簡単に触れました。 今回は、同じくシミュレーション結果から報酬を最大に得る方法を見つけ出すQ-Learning(Q学習)について解説します。 Q-LearningのQとは あっちの方から麻里ちゃんがやってきました。好きな子がこっちに向かって歩いてくる姿って、なんだかスローモーションを見ているようなキュっとした気持ちになりますね。でも、そんな気持