エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
BitNetLLMの罠(学習に失敗した話)|shi3z
こないだ試した1bitllmが割と上手く行ってるようなのと、あまり日本語が下手なのでとりあえずファインチ... こないだ試した1bitllmが割と上手く行ってるようなのと、あまり日本語が下手なのでとりあえずファインチューニングでもするかと思ってやってみたらハマって数日無駄にしたという話。 BitNetは、よく知られているように推論と学習で動きを変えないといけない。 ところが1bitllmの実装では、そこいらへんが僕が前にやったBitLinearの実験で使ったコードとは微妙に違ったのでメモがてらご報告。 結論から言うと、一度でもoptimizer.step()すると勾配が爆発して死ぬ それを確かめるために、便利なTRLを捨てて生実装を書いた。 from torch.utils.data import DataLoader,Dataset import copy class CompletionDataset(Dataset): def __init__(self, data): self.data =
2024/04/20 リンク