"一方学習曲線を見てみると、Flaxの方が精度が悪いようです / トータルのバッチサイズは両方とも32ですが、TPUの場合、デバイスが8個あるので、デバイスごとのバッチサイズが4になることが原因かと思われます"

sh19910711sh19910711 のブックマーク 2022/01/03 10:56

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Jax/Flax × TransformersでBERTのfine-tuningをTPUで行う | 株式会社AI Shift

    こんにちは AIチームの戸田です 以前、BERTをfine-tuningする際のTipsとして混合精度の利用や、Uniform Length Batchingをつかった学習効率化を紹介させていただきましたが、今回はTPUを使った高速化について紹介...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう