μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する｜Tatsuya Shirakawa

テクノロジーカテゴリーの変更を依頼記事元:

note.com/tatsuyashirakawa

13 usersがブックマークコメント

コメント

2

記事へのコメント2件

注目コメント
新着コメント

sh19910711 "μTransfer: 学習したい大規模モデル（ターゲットモデル）と同じアーキテクチャの次元や層数のより小さいモデルを用意 + μP と呼ばれる方法でパラメータ付け / 学習率を任意に大きなモデルにそのまま使い回せる"

2024/05/23 リンク

stealthinu 小さいモデルで探索したハイパーパラメータをそのまま大きなモデルに転用できるという手法。そのための条件を数学的に決めれると。すごい頭の良さ。

deeplearning

2024/04/08 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する｜Tatsuya Shirakawa

最近、友人から大規模モデルの学習を劇的に効率化しそうな下記の事実（μTransfer）を教えてもらい、こん... 最近、友人から大規模モデルの学習を劇的に効率化しそうな下記の事実（μTransfer）を教えてもらい、こんなことが成り立つことに非常に驚くとともに、それを知らなかったことにちょっとしたショックを受けました。 μTransfer 下記の手順で大規模モデル（Neural Networks）の最適なハイパーパラメータを効率的に獲得できる 1. 学習したい大規模モデル（ターゲットモデル）と同じアーキテクチャの次元や層数のより小さいモデルを用意し、それぞれのモデルのパラメータと最適化アルゴリズムを μP と呼ばれる方法でパラメータ付けする 2. その小さいモデルで、最適なハイパーパラメータ（学習率など）を探索する 3. ターゲットモデルに小さいモデルで獲得されたハイパーパラメータを適用する Greg Yang+, "Tensor Programs V: Tuning Large Neural Net

機械学習

ブックマークしたユーザー

sh199107112024/05/23
tomo314159265632024/04/09
tsintermax2024/04/08
stealthinu2024/04/08
ttsurumi2024/04/08
yojik2024/02/29
Gln2024/02/29
jmako2024/02/27
ZAORIKU2024/02/26

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx