"一方学習曲線を見てみると、Flaxの方が精度が悪いようです / トータルのバッチサイズは両方とも32ですが、TPUの場合、デバイスが8個あるので、デバイスごとのバッチサイズが4になることが原因かと思われます"

sh19910711 のブックマーク 2022/01/03 10:56

<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4710278843226905314/comment/sh19910711" data-user-id="sh19910711" data-entry-url="https://b.hatena.ne.jp/entry/s/www.ai-shift.co.jp/techblog/2209" data-original-href="https://www.ai-shift.co.jp/techblog/2209" data-entry-favicon="https://cdn-ak2.favicon.st-hatena.com/64?url=https%3A%2F%2Fwww.ai-shift.co.jp%2Ftechblog%2F2209" data-user-icon="/users/sh19910711/profile.png">Jax/Flax × TransformersでBERTのfine-tuningをTPUで行う | 株式会社AI Shift</a><ul class="comment-tag" style="list-style: none; margin: 0px;"><li style="float: left">[<a href="https://b.hatena.ne.jp/q/%2Aalgorithm">*algorithm</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92">機械学習</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/NLP">NLP</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/%2Aprogram">*program</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/python">python</a>]</li></ul><br><p style="clear: left"> &quot;一方学習曲線を見てみると、Flaxの方が精度が悪いようです / トータルのバッチサイズは両方とも32ですが、TPUの場合、デバイスが8個あるので、デバイスごとのバッチサイズが4になることが原因かと思われます&quot;</p><a class="datetime" href="https://b.hatena.ne.jp/sh19910711/20220103#bookmark-4710278843226905314"><span class="datetime-body">2022/01/03 10:56</span></a></blockquote><script src="https://b.st-hatena.com/js/comment-widget.js" charset="utf-8" async></script>

このブックマークにはスターがありません。
最初のスターをつけてみよう！