大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。 理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。 概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析した キーワード活性化しないニューロン(Dead Neurons)ネットワークの入力部付近の層では、多くの活性化しない「デッドニューロン」が存在しており、特に66B(660億)モデルでは、一部の層で70%以上のニューロンが活性化していない。 ネットワークの前半はデッドニューロンの割合が高く、後半はほとんどのニューロンが「活性化」している。 著者らは、この層間での疎さの違いは、初期層では「概念と対応するニューロン」の比率が後半の層