shodaiのブックマーク - はてなブックマーク

驚異の1ビットLLMを試す。果たして本当に学習できるのか?｜shi3z

昨日話題になった「Bit Net」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 Bit Netというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、Bit NetによるTransf ormerの野良実装

shodai 2024/02/29

あとで読む

リンク

ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)｜shi3z

朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。他のHMDと違い

shodai 2024/02/11

リンク

単一GPUで動画・画像・音声・テキスト対応のマルチモーダルモデルを訓練して推論!?何を言ってるかわかねーと思うが、俺も何を見ているのかわからねえ｜shi3z

お正月なのですがAIは待ってはくれないので毎日「デイリーAIニュース」だけは続けている今日この頃。中国のテンセントがとんでもないオープンソースをぶっ込んできた。 https://crypto-code.github.io/M2UGen-Demo/ 動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、しかもベースはllama-7Bということで、V100 32GB一つで推論可能(CPUのRAMは49GB以上必要)どころか学習も可能。ホントかよ!! しかもしれっと日本語でも命令できるし。ほんとにテクノっぽい音楽が流れるなんかこの研究の名前はかなり控えめに「音楽理解できるマルチモーダルモデル」みたいに書いてあるんだけど、とんでもない。実際にはこれは「どんな情報も入力できるマルチモーダルモデル」のプロトタイプである。 MU2GENのモデル構造図音声、画像、動画とい

shodai 2024/01/06

リンク

俺に起業の相談をするな｜shi3z

最近よく聞かれるので改めて言っておく。俺に起業の相談をするな。一切受けつけていない。突然事業のアイデアを言われても俺は助けないし助けられない。俺が相手にするのはUberEatsのユーザーと、昔から一緒に仕事をしている人の紹介だけだ。もうすぐ五十路が見えているというのに新たな人間関係を構築しようとするほど俺は暇でも気長でもない。相談されるとそれだけで僕の頭脳が無駄に消費される。俺に相談するというのは基本的に泥棒である。俺は何か聞いたら自分でも意識しないうちに気の利いた解決策を考えてしまう。俺にとって俺の頭脳は商売道具だから、俺に起業の相談をするというのはタダでイラストレーターに絵を描けと言ってるのと同じだ。相談を受けなくていいようにたくさん記事を書いてるし本も書いている。俺の情報を一方的に発信するのは構わないのだが、誰かのへんな考えを聞いて時間を浪費したくない。時間は限られているのだ。

shodai 2023/10/22

リンク

もうみんなプログラマーになれるよ｜shi3z

僕の20年来の親友にnpakaというプログラマーがいるんだけど、彼はもう超凄い。何でもすごい。何でも書けるし何でも早い。本を書くのもプログラムを書くのも、新しいわけわかんない説明書がバグだらけの環境に慣れるのも早い。んで、これまではちょっとしたことも難しいことも全部npaka(布留川君)に頼んでたんだけど、最近二人とも独立したからつまんないこと頼むのは悪いなと思って「あれはできるんだっけ」くらいのことは自分で何とかしようかなと思った。それでChatGPTに「Swiftで⚪︎⚪︎やるにはどうすんの?」と聞いたら、Swiftについてほとんど何も勉強してないのに作りたいものが何となくすぐにできてきちゃって、でもまあやっぱりChatGPTだと知識が古いので詰まったらネットで検索すると、だいたい結局npaka(布留川君)のページが出てきてやはり信頼と実績の大先生(仲間内ではそう呼ばれている)です

shodai 2023/09/11

リンク

OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる｜shi3z

凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。あとはなんでもやってくれる。たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

shodai 2023/09/08

リンク

これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)｜shi3z

導入　本当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。これは本当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日本語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

shodai 2023/07/20

リンク

ABCIでMPT-7Bのファインチューニングを試す｜shi3z

前提知識MPT-7Bは最近発表された商用利用可能な大規模言語モデルで、LLaMAに匹敵する性能を持っていると言われています。 ABCIは経産省が管轄する日本在住者なら誰でも安価に使えるスーパーコンピュータです。 (ただし登録がいろいろ大変なので法人が前提です/利用料は最低20万円から) 対象読者行間が読める人。本文が間違っていても自分でソースコードに手を加えて修正できるスキルがある人。ABCIを使えるポジションの人。僕も人間なのでミスはよくありますし、備忘録とこれからやろうとする人のために書いています。質問は受け付けません(自分でなんとかしてください)。準備思ったより大変だったのでメモまず、大前提として自宅のA6000x2のマシンでできるかと思ったら、ダメだった(12:57更新。ウソ:A6000x2でちゃんとできました)。まず、MPTはTransf ormerなのでRWKVと違い、V

shodai 2023/06/21

まず、MPTはTransformerなのでRWKVと違い、VRAMをめちゃくちゃ要求します。必要なVRAMの容量は、12*N(Nはパラメータ数)で概算できます。たとえばGPT-13Bをやりたければ、12*13=156GBが必要ということになります。

リンク

完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す｜shi3z

Transf ormerは分散できる代償として計算量が爆発的に多いという不利がある。一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。時間がない方はビデオをご覧ください僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。モデルデータは一とつあれば十分なのでひとつだけにする。次に、chatのリポ

shodai 2023/03/26

爆発的に進むなぁ

LLM

リンク

会話という錯覚について｜shi3z｜note

あちらの記事は万人向けに書いているので、行間読まないとわからないようなことは省略してあるのだが、本欄の読者には補足として蛇足になるかもしれないが会話について研究していて思ったことを記しておく。人工無能と僕記事中にあるように僕がチャットボット・・・当時は人工無能と呼ばれていたが・・・を開発し始めたのは中学生の頃だ。1990年頃だと思う。きっかけは、中学校にNECのパソコンが導入されて、友達に自分のプログラムを見せる機会を得たからだ。家で一人でプログラミングしているときはどうも気分が乗らなかったのだが、友達を面白がらせるという動機は子供の頃の僕にとっては非常に強く働いた。一度、家で人工無能のプログラミングをしたときは、相手が自分しかいないのでわりとすぐ飽きてしまったが、中学になってその熱が再燃した。きっかけは月刊ASCIIに、AWKの特集が載ったことで、AWKというのは要はUNIX用