本記事では、Transformerの基礎として、Multi-Head Attentionの仕組みを分かりやすく解説します。 本記事の構成は、はじめにTransformerおよびTransformer Blockについて紹介し、TransformerにおけるMulti-Head Attentionの重要性について説明します。その後に、Multi-Head Attentionがどのような仕組みで実現されているのかを説明します。本記事を読めばMulti-Head Attentionについて、概要から計算式に至るまで、ほぼ全てをご理解いただけると思います。 解説動画は以下になります。 Transformer Transformer[1]とは2017年に高精度な機械翻訳モデルとして登場した機械学習モデルです。Transformerが提案された論文のタイトルは「Attention Is All You