BitNetLLMの罠(学習に失敗した話)｜shi3z

テクノロジーカテゴリーの変更を依頼記事元:

note.com/shi3zblog

1 userがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

isrc 最近H100のカードが市場に出回り始めてきているが、少し様子見した方がいいかもしれない。割高(大体550万円くらい。定価の二倍)だし、最低1000万は用意しないと入り口にすら立てない

機械学習

2024/04/20 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

BitNetLLMの罠(学習に失敗した話)｜shi3z

こないだ試した1bitllmが割と上手く行ってるようなのと、あまり日本語が下手なのでとりあえずファインチ... こないだ試した1bitllmが割と上手く行ってるようなのと、あまり日本語が下手なのでとりあえずファインチューニングでもするかと思ってやってみたらハマって数日無駄にしたという話。 Bit Netは、よく知られているように推論と学習で動きを変えないといけない。ところが1bitllmの実装では、そこいらへんが僕が前にやったBit Linearの実験で使ったコードとは微妙に違ったのでメモがてらご報告。結論から言うと、一度でもoptimizer.step()すると勾配が爆発して死ぬそれを確かめるために、便利なTRLを捨てて生実装を書いた。 from torch.utils.data import DataLoader,Dataset import copy class CompletionDataset(Dataset): def __init__(self, data): self.data =

機械学習

ブックマークしたユーザー

isrc2024/04/20

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx