エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
最近の言語生成の強化学習 - Seitaro Shinagawaの雑記帳
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
最近の言語生成の強化学習 - Seitaro Shinagawaの雑記帳
こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 6日目の記事です。 短いですが、最近の... こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 6日目の記事です。 短いですが、最近の言語生成周りの強化学習関連の話題を取り上げたいと思います。 言語生成周りの強化学習のおさらい(2020年時点での私の理解) 最近の言語生成の強化学習①:REINFORCEもPPOへ徐々に移行中 最近の言語生成の強化学習②:価値ベース?できるよ。そう、事前学習済み言語モデルならね 言語生成周りの強化学習のおさらい(2020年時点での私の理解) 言語生成モデルの訓練にはTeacher forcingを用いる 言語生成で最もよく使われている強化学習手法は、方策勾配法の最も簡単な手法であるREINFORCEアルゴリズムである(他にもActor-criticや、DQNをはじめとする価値ベースの手法などが使われている) REINFORCEでは、生成した文に対してあらかじめ報酬を算出し