StackLLaMA : RLHFでLLaMAを学習するための実践ガイド｜npaka

テクノロジーカテゴリーの変更を依頼記事元:

note.com/npaka

29 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

misshiki “「SFT（教師ありファインチューニング）」「RM（報酬 / 嗜好モデリング）」「RLHF（人間フィードバックからの強化学習）」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介。”

2023/05/29 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

StackLLaMA : RLHFでLLaMAを学習するための実践ガイド｜npaka

以下の記事が面白かったので、簡単にまとめました。・StackLLaMA: A hands-on guide to train LLaMA wi... 以下の記事が面白かったので、簡単にまとめました。・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。・SFT (Supervised Fine-tuning) : 教師ありファインチューニング・RM (Reward / preference modeling) : 報酬 / 嗜好モデリング・RLHF (Reinforcement Learning from Human Feedback) : ヒューマンフィードバックからの強化学習「StackLLaMA」は、以下でデモを試すことができます。ベースモデルとして「LLaMA 7B」、データセットとして「

ブックマークしたユーザー

warud2023/12/10
roogh5eeSha62023/11/30
misshiki2023/05/29
cutc-mt2023/05/29
manjirou992023/05/28
sakito09022023/05/28
t_otoda2023/05/28
Hiro_Matsuno2023/05/28
bayaread2023/05/28
dhesusan46492023/05/28
ibadora2023/05/28
toshikish2023/05/28
einherjar2023/05/28
kybernetes2023/05/28
mathtonica2023/05/27
libertine22023/05/27
yuiseki2023/05/27
rindai872023/05/27

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx