Command R+はどこまで量子化するとアホになってしまうのか？

テクノロジーカテゴリーの変更を依頼記事元:

soysoftware.sakura.ne.jp

7 usersがブックマークコメント

記事へのコメント2件

注目コメント
新着コメント

stealthinu Command R+を例にした量子化bit数と手法での性能劣化度合いについて。やはり4bitくらいまでならそんなに遜色ない感じ。3090が3毎あればローカルLLMが実用になる時代に。

2024/05/13 リンク

sh19910711 "ElyzaTasks100: 自動評価させるには、一般的にはGPT-4のAPIが使われ + 一回の評価で1ドルから2ドルかかる / Command R+のAPI: 無料で叩けるのは一ヶ月間に1000回 / VRAM72GBにすれば4bitのCommand R+が全部VRAMに載って快適動作になるらしい"

2024/04/25 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

Command R+はどこまで量子化するとアホになってしまうのか？

今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを... 今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを解かせるという事をやる。何故そんな事をする必要があるんですか？まず、LLMのパラメータは本来1パラあたり16bitの精度で保存されている。しかし、LLMを動かすとメチャクチャメモリやVRAM食う。だから、精度を下げちゃえば省メモリになっていんじゃね？という話で、8bitやら4bitやら2bitに精度を下げちゃう事が、特にLlama.cpp界隈では常識的に行われている。これが量子化だ。というか、コンシューマレベルのPCでLLMを実用的に動かしたいと思えば、量子化はもはや必須テクである。量子化でbit数を下げれば下げるほど、当たり前だがLLMの回答の精度、クオリティは下がっていく。要するにアホになってく。8bitはまったく問題なし。6bit、5bitも全然問題なし。4bit