ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

テクノロジーカテゴリーの変更を依頼記事元:

gigazine.net

149 usersがブックマークコメント

記事へのコメント9件

注目コメント
新着コメント

takaya030 機械学習。"RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。"

機械学習

2023/07/05 リンク

misshiki “RLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」”

2023/06/12 リンク

isrc 教師データを作成したり、モデルの回答を評価する際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまう／RLHF用データの入力や管理を行ってくれるプラットフォーム

機械学習

2023/06/11 リンク

kurojz “ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利”

2023/06/11 リンク

poad1010 この記事をおすすめしました

2023/06/11 リンク

yarumato “教師ありファインチューニングあり／なしの英文実例。ファインチューニングの教師データは下記の手順で、人が高品質なものを用意する。ファインチューニングの次は報酬モデル作成を行います。”

2023/06/11 リンク

tomono-blog よし、日本の住所を食わせてみて、混乱に陥れよう

2023/06/11 リンク

deejayroka "Argillaは上記のようなトレーニング用データの管理を行ってくれるプラットフォームです"

2023/06/11 リンク

shodai そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。

2023/06/11 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質... RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに