“しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。”

ookitasaburou のブックマーク 2023/05/25 18:39

<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4736969326546008421/comment/ookitasaburou" data-user-id="ookitasaburou" data-entry-url="https://b.hatena.ne.jp/entry/s/gigazine.net/news/20230525-alpacafarm-rlhf/" data-original-href="https://gigazine.net/news/20230525-alpacafarm-rlhf/" data-entry-favicon="https://cdn-ak2.favicon.st-hatena.com/64?url=https%3A%2F%2Fgigazine.net%2Fnews%2F20230525-alpacafarm-rlhf%2F" data-user-icon="/users/ookitasaburou/profile.png">人間による評価をシミュレートすることで高速＆安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される</a><br><p style="clear: left">“しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。”</p><a class="datetime" href="https://b.hatena.ne.jp/ookitasaburou/20230525#bookmark-4736969326546008421"><span class="datetime-body">2023/05/25 18:39</span></a></blockquote><script src="https://b.st-hatena.com/js/comment-widget.js" charset="utf-8" async></script>

このブックマークにはスターがありません。
最初のスターをつけてみよう！

人間による評価をシミュレートすることで高速＆安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

gigazine.net2023/05/25

大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコ...

30 人がブックマーク・4 件のコメント

他のコメントを読む

＼コメントがサクサク読めるアプリです／

はてなブックマーク

人間による評価をシミュレートすることで高速＆安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

はてなブックマーク

公式Twitter

はてなのサービス