Transformer 深層学習モデル以前の言語モデルの課題 言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。(LLM資料p.8参照) ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。 ニューラル言語モデル しかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN(Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。(勾配消失&単語間の長距離依存性の把握が困難) RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし
![【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/51e42f55ef746e235c7b67ab70a82acc190303e1/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUUzJTgwJTkwRGF5JTIwMyVFMyU4MCU5MSVFNiU5RCVCMSVFNSVBNCVBNyVFNiU5RCVCRSVFNSVCMCVCRSVFNyVBMCU5NCVFMyU4MSVBRUxMTSVFOCVBQyU5QiVFNSVCQSVBNyVFOCVCMyU4NyVFNiU5NiU5OSVFMyU4MSU4QyVFNSU4NSVBQyVFOSU5NiU4QiVFMyU4MSU5NSVFMyU4MiU4QyVFMyU4MSU5RiVFMyU4MSU4QiVFMyU4MiU4OSVFMyU4MCU4MSVFOCVBOSVCMyVFMyU4MSU5NyVFMyU4MSU4RiVFOCVBQSVBRCVFMyU4MiU5MyVFMyU4MSVBNyVFMyU4MSU4NCVFMyU4MSU4RiVFMyU4MiU4OCVFMyU4MCU5MCVFNSU4MiU5OSVFNSVCRiU5OCVFOSU4QyVCMiVFMyU4MCU5MSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZDJjZWMyYTU0ZGJkYTlhN2E1YmIxYWYzNDFjZjVjODQ%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwbW9oa2k3JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzImdHh0LWFsaWduPWxlZnQlMkN0b3Amcz05ZDU3MjFjYWEzNWY3YzgyZGU2MzUyNTRiOWJmMWQwMA%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D089a35aae093fdec3e52600c9f84b431)