小さいモデルで探索したハイパーパラメータをそのまま大きなモデルに転用できるという手法。そのための条件を数学的に決めれると。すごい頭の良さ。

stealthinustealthinu のブックマーク 2024/04/08 20:12

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する|Tatsuya Shirakawa

    最近、友人から大規模モデルの学習を劇的に効率化しそうな下記の事実(μTransfer)を教えてもらい、こんなことが成り立つことに非常に驚くとともに、それを知らなかったことにちょっとしたショックを受けました。...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう