trlxを用いた文書生成モデルの学習①~ILQL編~ | 株式会社AI Shift

テクノロジーカテゴリーの変更を依頼記事元:

www.ai-shift.co.jp

5 usersがブックマークコメント

記事へのコメント1件

注目コメント
新着コメント

sh19910711 "trlx: 話題のChatGPTの学習に使われているRLHFを行うことができる強化学習フレームワーク / RLHF: OpenAIの出したFine-Tuning Language Models from Human Preferencesという論文で提案 / 人間のフィードバックは多くの場合微分できない"

2023/03/04 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

trlxを用いた文書生成モデルの学習①~ILQL編~ | 株式会社AI Shift

こんにちは AIチームの戸田です今回は最近話題のChatGPTの学習に使われているRLHF(Reinforcement Learn... こんにちは AIチームの戸田です今回は最近話題のChatGPTの学習に使われているRLHF(Reinforcement Learning from Human Feedback)を行うことができる強化学習フレームワーク、trlxを使った文章生成を試してみたいと思います。 trlxは強化学習手法としてILQL(Implicit Language Q-Learning)とPPO（Proximal Policy Optimization）の2種類が用意されており、それに加えて通常の言語モデルの学習であるSFT(Supervised Fine-Tuning)も実装されています。本記事では日本語感情分析データセットWRIMEのデータでILQLを使った学習を行い、PPOは次回の記事で試したいと思います。trlxライブラリを一通り動かすことを目的とし、パラメータ調整やデータクレンジングなどのより良い