サクサク読めて、アプリ限定の機能も多数!
“しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。”
ookitasaburou のブックマーク 2023/05/25 18:39
人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される“しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。”2023/05/25 18:39
このブックマークにはスターがありません。 最初のスターをつけてみよう!
gigazine.net2023/05/25
大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコ...
30 人がブックマーク・4 件のコメント
\ コメントが サクサク読める アプリです /
“しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。”
ookitasaburou のブックマーク 2023/05/25 18:39
このブックマークにはスターがありません。
最初のスターをつけてみよう!
人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される
gigazine.net2023/05/25
大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコ...
30 人がブックマーク・4 件のコメント
\ コメントが サクサク読める アプリです /