並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 11 件 / 11件

新着順 人気順

BitNetの検索結果1 - 11 件 / 11件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

BitNetに関するエントリは11件あります。 LLM機械学習自然言語処理 などが関連タグです。 人気エントリには 『BitNetから始める量子化入門』などがあります。
  • BitNetから始める量子化入門

    はじめに BitNet、最近話題になっていますね。 そもそも量子化って何?という方もいると思うので、この記事は DeepLearning の量子化から入り、その上で BitNet の触りについて見ていこうと思います。色々とわかってないことがあり、誤読してそうなところはそう書いてるのでご了承ください。 図を作るのは面倒だったので、様々な偉大な先人様方の図やスライドを引用させていただきます。 量子化 DeepLearning における量子化 DeepLearning の学習・推論は基本 float32 で行います。これを int8 や Nbit に離散化することを量子化といいます。 計算に使う値は、モデルの重み、アクティベーション(ReLUとか通した後)、重みの勾配等があります。 学習時については一旦置いておいて、この記事では推論における量子化について焦点をあてます。推論時に量子化の対象となる

      BitNetから始める量子化入門
    • 【論文丁寧解説】BitNet b1.58とは一体何者なのか - Qiita

      はじめに この記事では、巷で「この技術によりGPUが不要になるかもしれない、NVIDIAなどの半導体関係の株価が...」と話題になっている、BitNet b1.58についての論文を丁寧に解説します。このMicrosoftが先日発表したBitNet b1.58はそのエネルギー効率の凄まじさから2024年初めの大きな技術改革となるかもしれません!! 筆者の見解 関する論文解説に入る前に、この技術に関する私の個人的な意見を述べたいと思います。 1bitの技術を用いることで達成されたその驚異的なエネルギー効率の高さは、既存の大規模言語モデル(LLM)とは一線を画しています。この技術が今後のAI技術の発展にどのように影響を与えるかについては以降の発表がとても楽しみです。 一方で、「GPUが不要になるかもしれない」という意見に関しては、ある程度の限定的な視点からの意見と言えます。BitNet b1.5

        【論文丁寧解説】BitNet b1.58とは一体何者なのか - Qiita
      • 既存日本語LLMをBitNetで置き換えて実行してみた|はち

        はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。 簡単な概要としては、 既存のLLMが1パラメータをFP16やBF16などのfloat型で扱っているものを、1パラメータで{-1, 0, 1}しか扱わない様にした。 計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。(量子化手法としては初) ということだと思います。 これは元々、今回の論文と同チームによって提案された"BitNet: Scaling 1-bit Transformers for Large Language Models"という論文を拡張したものです。この時は1パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1

          既存日本語LLMをBitNetで置き換えて実行してみた|はち
        • BitNet&BitNet b158の実装①|はち

          はじめに先週発表された論文『The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits』は多くの人に衝撃を与えたと思います。 それまで量子化とは、有り体に言えば性能を犠牲にメモリ等のコストを抑える手法でした。しかし、BitNet b158(*)では量子化手法としては初めてオリジナルを超える性能を出す可能性を魅せてくれました。 * Githubにある実装名から。以後この記事では名前で元のBitNetとは区別したいと思います。 そんなBitNetとBitNet b158ですが、論文の著者たちからは正式な実験コードが公開されていません。なので、有志の方々が論文を眺めながらあれこれ実装していているのが現状です。 そして、今の所論文の内容を完全に再現できているものはない気がします。(弱々エンジニアの私の理解不足な可能性も大いにあ

            BitNet&BitNet b158の実装①|はち
          • BitNetでMNISTを学習させて見えてきた性質|shi3z

            かれこれ一ヶ月弱くらいBitNetと格闘している。BitNetは、Microsoftが発明したと主張している1-Bit(1.58ビットとも言われる)量子化ニューラルネットワークのことだ。 僕はその辺に落ちてるコードを使って最初の最初はlossが2くらいまで下がったのだが、そもそもLLMはlossが1を切らないと実用性がない。 それ以降は6とか良くて5とかなのでたまたま最初に試したのがうまく行ったようだ。 しかしいつまで経っても良くならないのでBitNetの性質を根本的に見直す必要があるのでは?と思い、初心に帰って論理回路を学習させようとした。 BitNetのコードベースははちさんのコードと、Microsoftの公式な論文の実装を併用した。 まず試したのはこのようなコード from bitnet import * import torch from torch import optim im

              BitNetでMNISTを学習させて見えてきた性質|shi3z
            • GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch

              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch
              • GitHub - frodo821/BitNet-Transformers: 0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture

                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                  GitHub - frodo821/BitNet-Transformers: 0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture
                • BitNet - Qiita

                  ※BitNetそのものを検証した記事ではなく,BitNetで使われているレイヤーを使った簡単なNNモデルを作成し検証しています. はじめに 今回はBitNetの紹介になります.BitNetは量子化を考慮した学習を行うアーキテクチャとなっており,他の量子化手法と比べ競争力のある性能を保ちつつ,メモリ消費量を大幅に抑えています. 今回の検証ではBitNetで使われているBitLinearレイヤーを使いLanguage Modelではなくテーブルデータのための簡単なNNモデルを作り学習を行えるか検証しています. 記事に誤り等ありましたらご指摘いただけますと幸いです。 目次 1. BitNet 2. BitLinearの検証 3. おわりに 4. 参考文献 1. BitNet ライセンス:MIT リポジトリ:https://github.com/kyegomez/BitNet (今回検証に用いた実

                    BitNet - Qiita
                  • GitHub - Beomi/BitNet-Transformers: 0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture

                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                      GitHub - Beomi/BitNet-Transformers: 0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture
                    • Daisuke Okanohara / 岡野原 大輔 on X: "BitNet b1.58はBitNet(https://t.co/mUKvWKMcsM)の重みを2値でなく3値{-1, 0, 1}で持ち学習。3BでPPLと後続タスク性能で元のLLMに匹敵か超える性能を達成。活性値は8bitで持つので行列乗算は効率的なINT8加減算に置き換えられる。https://t.co/cZSBZMC2yp == コメント:…"

                      • 【急展開】NVIDIAの天下が終わる? MSFTが発表したAIモデル「BitNet」がやばすぎる‥‥GPUが不要になるだと!?😨🥺😳 : ライフハックちゃんねる弐式

                        2024年03月01日 【急展開】NVIDIAの天下が終わる? MSFTが発表したAIモデル「BitNet」がやばすぎる‥‥GPUが不要になるだと!?😨🥺😳 Tweet 11コメント |2024年03月01日 12:00|Web・テクノロジー|Editタグ :AIGPU機械学習NVIDIABitNet マイクロソフトが発表したBitNet、やばすぎて半信半疑ながらも真実ながら凄すぎて期待してしまう。 行列の中身を1ビット(0 or 1のみ)にして、行列演算に乗算が必要なくなって高速化させてるらしい。 高速化する理屈はわかるけど、論文によるとなぜか精度も向上してるらしい。 やばすぎて一旦様子見。 pic.twitter.com/jugSP5RpLX— goto (@goto_yuta_) February 28, 2024 「1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加

                          【急展開】NVIDIAの天下が終わる? MSFTが発表したAIモデル「BitNet」がやばすぎる‥‥GPUが不要になるだと!?😨🥺😳 : ライフハックちゃんねる弐式
                        1

                        新着記事