“Transformer (言語モデル) の性能はパラメータ数N・データセットサイズD・計算予算Cを変数としたシンプルなべき乗則 (Power Law)1 に従うという” “性能に限界が存在しない可能性があります”

otori334otori334 のブックマーク 2021/01/05 11:59

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ

    OpenAIGPT-3の次の研究を始めています. 世間がGPT-3のデモに湧き上がる中,OpenAIはScaling Lawに関する2の論文をひっそりと公開しました. Scaling Lawを一言で説明するなら「Transformerの性能はたった3つ...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう