アップルも注目する小型LLM ChatGPT、特にGPT-4が登場して以来、大規模言語モデル(LLM)の性能向上において、パラメータ数を増やすアプローチが主流となってきた。しかし最近では、パフォーマンスを維持しつつ、パラメータ数を減らす、小型モデルの開発が活発化している。この大規模言語モデルの小型化において、水面下で動いているのがアップルだ。 アップルは2023年12月、「LLM in a flash」という論文を発表。この研究では、iPhoneやMacBookといったメモリ制約のあるデバイスでLLMを動作させる手法が提案されている。具体的には、モデルの一部をDRAMに、残りをフラッシュメモリに分散して格納し、必要に応じてDRAMとフラッシュメモリ間でモデルの重みを動的に入れ替えるというアプローチ。これにより、メモリ使用量を大幅に減らしつつ、推論の遅延を最小限に抑えることができるという。特