タグ

ブックマーク / soysoftware.sakura.ne.jp (1)

  • Command R+はどこまで量子化するとアホになってしまうのか?

    今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを解かせるという事をやる。 何故そんな事をする必要があるんですか? まず、LLMのパラメータは来1パラあたり16bitの精度で保存されている。しかし、LLMを動かすとメチャクチャメモリやVRAMう。だから、精度を下げちゃえば省メモリになっていんじゃね?という話で、8bitやら4bitやら2bitに精度を下げちゃう事が、特にLlama.cpp界隈では常識的に行われている。これが量子化だ。というか、コンシューマレベルのPCでLLMを実用的に動かしたいと思えば、量子化はもはや必須テクである。 量子化でbit数を下げれば下げるほど、当たり前だがLLMの回答の精度、クオリティは下がっていく。要するにアホになってく。8bitはまったく問題なし。6bit、5bitも全然問題なし。4bit

    Command R+はどこまで量子化するとアホになってしまうのか?
  • 1