サクサク読めて、アプリ限定の機能も多数!
"一方学習曲線を見てみると、Flaxの方が精度が悪いようです / トータルのバッチサイズは両方とも32ですが、TPUの場合、デバイスが8個あるので、デバイスごとのバッチサイズが4になることが原因かと思われます"
sh19910711 のブックマーク 2022/01/03 10:56
Jax/Flax × TransformersでBERTのfine-tuningをTPUで行う | 株式会社AI Shift[*algorithm][機械学習][NLP][*program][python] "一方学習曲線を見てみると、Flaxの方が精度が悪いようです / トータルのバッチサイズは両方とも32ですが、TPUの場合、デバイスが8個あるので、デバイスごとのバッチサイズが4になることが原因かと思われます"2022/01/03 10:56
"一方学習曲線を見てみると、Flaxの方が精度が悪いようです / トータルのバッチサイズは両方とも32ですが、TPUの場合、デバイスが8個あるので、デバイスごとのバッチサイズが4になることが原因かと思われます"
このブックマークにはスターがありません。 最初のスターをつけてみよう!
www.ai-shift.co.jp2021/10/26
こんにちは AIチームの戸田です 以前、BERTをfine-tuningする際のTipsとして混合精度の利用や、Uniform Length Batchingをつかった学習効率化を紹介させていただきましたが、今回はTPUを使った高速化について紹介...
3 人がブックマーク・2 件のコメント
\ コメントが サクサク読める アプリです /
"一方学習曲線を見てみると、Flaxの方が精度が悪いようです / トータルのバッチサイズは両方とも32ですが、TPUの場合、デバイスが8個あるので、デバイスごとのバッチサイズが4になることが原因かと思われます"
sh19910711 のブックマーク 2022/01/03 10:56
このブックマークにはスターがありません。
最初のスターをつけてみよう!
Jax/Flax × TransformersでBERTのfine-tuningをTPUで行う | 株式会社AI Shift
www.ai-shift.co.jp2021/10/26
こんにちは AIチームの戸田です 以前、BERTをfine-tuningする際のTipsとして混合精度の利用や、Uniform Length Batchingをつかった学習効率化を紹介させていただきましたが、今回はTPUを使った高速化について紹介...
3 人がブックマーク・2 件のコメント
\ コメントが サクサク読める アプリです /