エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka
以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA wi... 以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチューニング ・RM (Reward / preference modeling) : 報酬 / 嗜好モデリング ・RLHF (Reinforcement Learning from Human Feedback) : ヒューマンフィードバックからの強化学習 「StackLLaMA」は、以下でデモを試すことができます。 ベースモデルとして「LLaMA 7B」、データセットとして「
2023/05/29 リンク