第1層では確かにTransformerのattention機構は単語間の関係性を出現位置に関わらず符号化してるけど、元論文の時点でそれが数層重なってるし、GPT3.5だと数十層も重なってるので、奥の方では単語によらず処理してると思うよ

T-norfT-norf のブックマーク 2024/04/17 10:09

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

ChatGPTなど数々の高性能AIを生み出した仕組み「Attention」についての丁寧な解説ムービーが公開される

    さまざまな数学的トピックをムービー形式で解説するサイト「3Blue1Brown」において、ChatGPTに代表されるAIを形作っている「Transformer」構造の心臓部「Attention(アテンション)」についての解説が行われていま...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう