畳み込み+Attention=最強？最高性能を叩き出した画像認識モデル「CoAtNet」を解説！ - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/omiita

108 usersがブックマークコメント

記事へのコメント3件

注目コメント
新着コメント

misshiki “畳み込みとSelf-Attention、両者の良いとこどりをしたCoAtNetというモデルを提案し、ImageNetでSoTA(Top-1精度:90.88%)を叩き出しました。本記事では畳み込みとSAの復習から丁寧に入り、CoAtNetの説明および実験結果を解説”

2021/11/18 リンク

stealthinu 『畳み込みとSAとではこの加重和の重みが固定されているか入力値によって変動するのかというのが大きく異なる』後半CとTとの割合変えての比較興味深い。抽象度が増すほどTが強くなる感。

2021/11/17 リンク

mysql8 sota

2021/11/17 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

畳み込み+Attention=最強？最高性能を叩き出した画像認識モデル「CoAtNet」を解説！ - Qiita

1. CoAtNetの解説 1.1 畳み込みとSAの復習コンピュータビジョンで用いられている大きな仕組みに畳み込... 1. CoAtNetの解説 1.1 畳み込みとSAの復習コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式本論文では、畳み込みの中でもDW(=Depthwise)