人間による評価をシミュレートすることで高速＆安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

テクノロジーカテゴリーの変更を依頼記事元:

gigazine.net

31 usersがブックマークコメント

記事へのコメント4件

注目コメント
新着コメント

ookitasaburou “しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。”

2023/05/25 リンク

nisisinjuku 教師いらず。うぇぇ。

2023/05/25 リンク

misshiki “RLHFは人間を使うため報酬支払いコストがかさみ、フィードバック回収に時間がかかる。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価＆高速にRLHFを進めることができるツール”

2023/05/25 リンク

shunkeen 字面だけ読むと、「アルパカ牧場（AlpacaFarm）で人間をシミュレートする」って最高にマッドサイエンスだな。／このツールでOSSの日本語LLMをRLHFでファインチューニングする人とか出てくるのかな？

AI
文章

2023/05/25 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

人間による評価をシミュレートすることで高速＆安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement L... 大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価＆高速にRLHFを進めることができるツールです。 Stanford CRFM https://crfm.stanford.edu/2023/05/22/alpaca-farm.html (PDF)AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback https://tatsu