supermomongaのブックマーク - はてなブックマーク

Command R+はどこまで量子化するとアホになってしまうのか？
今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを解かせるという事をやる。何故そんな事をする必要があるんですか？まず、LLMのパラメータは本来1パラあたり16bitの精度で保存されている。しかし、LLMを動かすとメチャクチャメモリやVRAM食う。だから、精度を下げちゃえば省メモリになっていんじゃね？という話で、8bitやら4bitやら2bitに精度を下げちゃう事が、特にLlama.cpp界隈では常識的に行われている。これが量子化だ。というか、コンシューマレベルのPCでLLMを実用的に動かしたいと思えば、量子化はもはや必須テクである。量子化でbit数を下げれば下げるほど、当たり前だがLLMの回答の精度、クオリティは下がっていく。要するにアホになってく。8bitはまったく問題なし。6bit、5bitも全然問題なし。4bit
supermomonga 2024/04/27
リンク
1

はてなブックマーク