Open Sora PlanのGitHubプロジェクトの紹介OpenAIが自然言語から動画を作成するモデルSoraのプレスリリースをして世間を驚かせましたが、いつ頃出てくるのかはまだ発表されていません。そんな中、オープンソースで自然言語から動画を作成するプロジェクトがGitHubにありましたので紹介していきます。今回の成果物は次のような動画です。
今回は、OpenAIのGPT-4Vを使用したパソコン画面を操作することができるコードの紹介です。 GPT-4Vは、OpenAIの画像認識あるいは画像理解ができるAPIです。 このGPT-4VのAPIを使用して、パソコン画面を操作しようというコードを見つけました。 自PCで下記を実行します。上記はMac用なので、Windows用に少し修正しています。 git clone https://github.com/OthersideAI/self-operating-computer.git cd self-operating-computer python -m venv venv venv\Scritps\activate pip install -r requirements.txt pip install . rename .example.env .env次に、.envファイルを開いて、
QLoRAは、大規模言語モデルの微調整手法です。通常の16ビット量子化よりも効率的な4ビット量子化を用いることで、メモリ使用量を削減しながら、性能を維持します。また、QLoRAは、ダブル量子化やページ付き最適化などの独自技術により、さらにメモリ使用量を削減しています。 補足として、4ビット量子化が16ビット量子化より効率的かと言うと、4ビット量子化の方が情報量が少ないからです。情報量を考えた時、4ビット量子化は、2の4乗の2×2×2×2=16、16ビット量子化は、2を16回かけて、65536となります。少ない情報量で、同じタスクを実行できるのなら、効率的と言えます。但し、様々なこととトレードオフとなります。 詳しいことが知りたい人は、githubのページが参考になります。 今回は、下記のGoogle Colabを参考にしました。70億の言語モデルとなります。 https://colab.r
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く