エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
self-attentionを代替する各種手法について
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
self-attentionを代替する各種手法について
概要 Transformerはvision, textなど各種ドメインで成功を収めているが、計算量とメモリ消費が系列長の2... 概要 Transformerはvision, textなど各種ドメインで成功を収めているが、計算量とメモリ消費が系列長の2乗に比例するため、長い系列を扱うのに課題がある。本稿ではこのような計算量の課題に対応することを目的として提案されたTransFormerの代替アーキテクチャについてまとめる。 以下に挙げる手法は自分が過去に論文を読んだことのあるものをまとめたものであり、網羅的ではないことに注意。 代替パターン 概ね以下のいずれかに分類される。 attentionの間引き 近似計算 計算過程の最適化 表1に画像、言語の各ドメインについてこれらの手法をまとめる。 Attentionの間引き Attentionは長さNの系列について、全てのペアについてattentionを計算しているが、関連性の強いペアのみに限定することで計算量を減らすというのがこの種の手法の方針である。 画像ドメインにいて