10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ｜Kan Hatakeyama

テクノロジーカテゴリーの変更を依頼記事元:

note.com/kan_hatakeyama

8 usersがブックマークコメント

コメント

2

記事へのコメント2件

注目コメント
新着コメント

dalmacija 面白い記事。llmの処理に理解とラベルを付けるのには混ぜるな危険の注意書きを探したくなる

2024/04/03 リンク

misshiki “10bクラスの言語モデルが､どのようなメカニズムを通してユーザーの質問に回答できるようになるかについて､調べています｡”

2024/04/02 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ｜Kan Hatakeyama

はじめに最近は大規模言語モデルのファインチューニングにハマっています｡ 10bクラスの言語モデルが､ど... はじめに最近は大規模言語モデルのファインチューニングにハマっています｡ 10bクラスの言語モデルが､どのようなメカニズムを通してユーザーの質問に回答できるようになるかについて､調べています｡最近の検討で生じた仮説は､「10bクラスのモデルは､実は質問文を殆ど理解できていない」というものです｡本記事ではどのようなデータを学習したときに､llm-jp-evalという評価セットに含まれるJCommonsenseQAというタスクを解けるようになるか､果たして､10bクラスのモデルは何を「理解」している/いないのか､そして､指示を理解できるようになるための必要な訓練量について､調べて行きたいと思います｡コードはこちら ※ これは正確な学術的検証ではありませんので､ご了承ください｡きちっとやってくれる方や､良い参考文献をご存知の方がいたら､教えていただけると､大変助かります｡今回のタスクJCo

ブックマークしたユーザー

roogh5eeSha62024/04/12
yuiseki2024/04/03
triceratoppo2024/04/03
dalmacija2024/04/03
misshiki2024/04/02
zope2024/04/01

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx