この記事は FIXER Advent Calendar 2023 - Adventar 23日目の記事です。 はじめにこんにちは、毛利です。この記事では趣味用の自作PCにGPUを2枚挿してサイズが13BのLLMを動かす話をします。 LLMのパラメータ数と推論に必要なメモリ量についてまず初めに、LLMのパラメータ数に対して、推論に使う場合にどれぐらいのメモリが必要なのかを話します。ここで言うパラメータ数は7B(70億)、13B(130億)、70B(700億)といったものです。 精度によっても変わってくるのですが、配布されるモデルの精度としてはbfloat16であることが多いです。この場合は、1パラメータあたり2byteになるので、~Bの部分を2倍したGBが要求されると考えればよいです。例えば、7BのLLMであれば14GB、13BのLLMであれば26GBなどとなります。逆に4bit量子化等が行