新型コロナウイルスのワクチンに関する情報は、厚生労働省の情報発信サイトを参考にしてください。情報を見る

長期報酬に対する逐次的オフ方策学習(半熟仮想株式会社との共同研究)

世の中カテゴリーの変更を依頼記事元:

blog.recruit.co.jp

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

長期報酬に対する逐次的オフ方策学習(半熟仮想株式会社との共同研究)

$$ \hat{V}(\pi_{\theta}) = \frac{1}{n} \sum_{i=1}^{n} \frac{\pi_\theta(a_{i,t}|x_i)} {\pi_0(a_{i,... $$ \hat{V}(\pi_{\theta}) = \frac{1}{n} \sum_{i=1}^{n} \frac{\pi_\theta(a_{i,t}|x_i)} {\pi_0(a_{i,t}|x_i)} r_i $$ この式は元のデータであまり現れていない($\pi_0$の小さい)介入を大きく評価しており、データ取得時に発生したバイアスを除外することが出来ます。 (例えば、ある病気を予防するためのワクチンが高齢者を中心に接種されていたとして、そのまま集計すると高齢者に偏った効果が計測されてしまうので、データ量の少ない若者のデータを水増しして集計するイメージ) しかし、少ないデータを拡大推計しているので、推定量のバリアンス(分散)は大きくなってしまいます。方策勾配法上記の推定量を最大化する方策は方策勾配法によって求められます。具体的には、方策のパラメータ$\theta$は、学習

ブックマークしたユーザー

quodius2024/03/29

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 世の中

いま人気の記事 - 世の中をもっと読む

新着記事 - 世の中

新着記事 - 世の中をもっと読む

設定を変更しましたx