Stable Diffusionなどの画像生成AIは自身の所有するマシンにインストールしてローカルで実行することが可能です。しかし、快適な画像生成に必要な「大容量のVRAMを備えたグラフィックボード」はPCパーツの中でも高価な部類に入るため、予算の都合から画像生成を諦めている人も多いはず。新たに、安価なAPUでも実用的な速度で画像を生成できたという検証結果がAI関連YouTubeチャンネル「Tech-Practice」によって報告されています。 Democratize AI: turn a $95 chip into a 16GB VRAM GPU! Beats most of the discrete GPUs! | by Ttiotech | Aug, 2023 | Medium https://medium.com/@ttio2tech_28094/51a8636a4719 Demo
現在シリコンバレーで最も注目される話題は「GPU不足」といわれている。生成AIへの関心が高まる中、大規模言語モデルの開発が活発化し、それに伴いGPUをめぐる取得競争が激化しているためだ。そのため、NVIDIAが新たに発表した「GH200」にも注目が集まる。GH200はどんなGPUになるのか。そもそもなぜGPUが不足しているのか、現行GPU「H100」や「A100」は誰が、何個取得したのか、ChatGPTの開発にGPUはどれほど必要なのか。GPU関連の注目トピックを紹介しよう。 バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上
ChatGPT開発に必要なGPUは3万基、日本の国策AI基盤は1千基。目前に迫る日本のAI敗戦 2023.08.19 Updated by Ryo Shimizu on August 19, 2023, 16:47 pm JST そろそろ業界の最深部でしか知られてなかった事実がニュースになって来始めているのでここで本当の問題を明らかにしておきたい。 AI開発に必須なのは、計算資源である。そしてこれは現在のところ、事実上NVIDIAが一社独占している。 NVIDIA以外の半導体がいくら「AIに特化しています」と能書きを垂れていてもごくわずかな例外を除いてはほとんど全部が誇大広告である。 たとえばApple Silliconは、「ニューラルエンジン」と称するモジュールを内蔵しているが、これを使ってAIの学習をすると、なんとCPUよりも遅い。信じられないかもしれないが、これが残酷な事実なのである
2023年5月にリリースされたGoogle Chrome 113で、次世代WebグラフィックスのJavaScript APIであるWebGPU(ウェブジーピーユー)がデフォルトで利用できるようになりました。ICS MEDIAでは2018年にWebGPUについて紹介していましたが、当時はSafariで開発者向けのフラグを有効にした場合にのみお試しできる実験的機能でした。 デスクトップChrome限定ではありますが、WebGPUが一般ユーザーの環境でも動作できるようになったいま、オリジナルのデモを交えてあらためてWebGPUを紹介します。 この記事で紹介すること WebGPUがChrome 113で標準で利用可能になった WebGPUはモダンな3D APIに直接アクセスすることで、WebGLより高い性能が得られる WebGPUだとドローコールの最適化をしなくても十分に高速 WebGPUはコンピ
GPT-3などの大規模言語モデルを処理するには高い計算量とメモリが必要なため、通常は複数のハイエンドなAIアクセラレーターが求められます。この処理を、メモリ16GBのNVIDIA Tesla T4やメモリ24GBのNVIDIA GeForce RTX 3090など、メモリ容量が限られたGPU単体でも実行するための生成エンジン「FlexGen」が公開されました。 GitHub - Ying1123/FlexGen: Running large language models like OPT-175B/GPT-3 on a single GPU. Up to 100x faster than other offloading systems. https://github.com/Ying1123/FlexGen#readme FlexGenは大規模言語モデルの推論リソース要件を単一のGPU
3090 Tiより高速な「GeForce RTX 4070 Ti」突如登場 発売中止の「GeForce RTX 4080(12GB)」を“リネーム”:CES 2023 NVIDIAが発売を中止した「GeForce RTX 4080(12GB)」が、「GeForce RTX 4070 Ti」として“復活”を果たすことになった。想定価格は発売中止前から100ドル値下げされているが、スペックはそのままとなっており、わずかだが手頃感が増している。
中国製パーツだけでPCが動く環境が徐々にだができつつある。つまり電源やケース、ファンだけでなく、SSDやメモリー、CPU、ビデオカードまで中国企業が開発・製造したパーツが登場しているというわけだ。 以前にも本連載で、中国製パーツを組み立てて、Windowsのアプリまで動く様子について紹介している(「中国独自の命令セットのCPUとパーツを用いた「完全中国製PC」でWindowsアプリが動いたと話題に」)。その後、さらに新たに中国産パーツの新しい話題が出てきたので今回紹介していきたい。 独自命令セットのCPUを開発する龍芯科技 政府からの補助金で徐々に製品を実現し、ついに上場か まず独自命令セットを採用したCPU、「龍芯」をリリースしている龍芯科技は、前回紹介した「3A5000」の後、6月に「3C5000L」を発表した。3A5000と3C5000Lの違いは、前者がコンシューマー向けで後者がサー
"Locality is efficiency, Efficiency is power, Power is performance, Performance is King", Bill Dally マルチスレッディングとは? CPUとGPUのマルチスレッディングの違いをブログにまとめていたけど例によって誰も興味なさそう— arutema47 (@arutema47) 2021年8月16日 つぶやいたら読みたい方が多そうだったので完成させました。 マルチスレッディングとはメモリ遅延を隠蔽しスループットを上げるハードウェアのテクニックです。 ただCPUとGPUで使われ方がかなり異なるため、その違いについて考えてみる記事です。 (SIMDについて並列プログラミングの観点から触れるべきでしたが、時間無いマルチスレッディングに注目するため初版では省きました。) 本記事について 本記事はCPUとG
近年のAIは、人間が手を加えなくてもコンピューターが自動的に大量のデータからそのデータの特徴を発見する「ディープラーニング(深層学習)」という学習手法で動いています。このディープラーニングは、コンピューターゲームに代表されるリアルタイム画像処理に特化した演算装置・プロセッサであるGPUで処理されるというのが通例ですが、ライス大学のコンピューター科学者がIntelと共同で「GPUに比べて最大15倍も高速にディープラーニングできるCPU向けソフトウェア」を開発しました。 ACCELERATING SLIDE DEEP LEARNING ON MODERN CPUS:VECTORIZATION, QUANTIZATIONS, MEMORY OPTIMIZATIONS, AND MORE (PDFファイル)https://proceedings.mlsys.org/paper/2021/file/
おひさしぶりです!ぴゅーぱです。 ALISオープンβおめでとうございます。よしだぱいせんにアイコン書いていただいて心機一転、今後もマイペースで更新を続けていくつもりですのでよかったら読んでやってください。 たぶん初めましての人も多いだろうから過去記事URLはっときますね。 さて、いまTwitterなどで話題の「例のグラボ」ってご存知ですか? 昨年末からパソコンショップに画面出力ができないグラボが安価で出回っているということで話題になっているものです。グラボなのに画面出力ができないってなんだよって話ですが、なにやらもともとマイニング用に販売されたグラボが業者によって手放され、格安で中古販売されているとの噂。しかもゴニョゴニョすると映像出力もできちゃうじゃないかということで話題に拍車をかけています。今日はこの「例のグラボ」の可能性を探ってみたいと思います! ※この記事は本グラボの改造を目的とす
測定結果 結果として、間違った測定方法だとCPUとGPUを比較すると「1883倍速くなりました!」という主張をしてしまうことになります。ちなみにGPUで1000倍なんて数字が出てきたら確実にどこか間違えています。実際、今回のケースでは本当は「約59倍速くなりました!」というのが正しい結果になります。 torch.cuda.synchronize()とtorch.cuda.Eventを使った場合の違い 今回torch.cuda.synchronize()とtorch.cuda.Event の2種類を紹介しました。場合によっては使い分けをしたほうがいいのでこの二つの違いを説明していきます。 torch.cuda.synchronize() を利用した場合、簡単なので測定しやすいのでいいので、ぱっと測定したい場合はこちらの方法が楽でよいかと思います。ただ、こちらの方法はkernel関数の発行と測
NVIDIA、暗号通貨マイニング専用プロセッサ「CMP」 「RTX 3060」のマイニング効率には制限 米NVIDIAは2月18日(現地時間)、暗号通貨マイニング専用のプロセッサ「CMP(Cryptocurrency Mining Processor)」の製品ラインを発表した。グラフィックス向けではなく、マイニング性能に最適化されている。 たとえばディスプレイ出力を省いたため、マイニング中の気流を改善できる。また、ピークコア電圧と周波数も低く、電力効率がGPUよりもいいという。 同社はまた、マイニング需要でゲーム向けGPUのGeForce GPUシリーズが品薄になっている対策として、26日発売予定の「GeForce RTX 3060」ではソフトウェアドライバーの設計により、Ethereumのマイニングアルゴリズムを検出するとハッシュレートを約50%制限することも発表した。 「われわれはゲー
新型コロナウイルスの感染拡大による世界的な半導体生産の滞りや、ゲーム需要の高まり受けて、NVIDIAやAMDが生産するGPUの供給不足が続いています。NVIDIAはこの供給不足を解消するために、「GeForce GTX 1050 Ti」や「GeForce RTX 2060」といった旧型のGPUの再生産を計画していることが明らかになりました。 Confirmed: Nvidia taps the GTX 1050 Ti to battle graphics card shortages | PCWorld https://www.pcworld.com/article/3607190/nvidia-rtx-30-graphics-card-shortages-gaming-gpu-gtx-1050-ti-geforce-rtx-2060.html NVIDIAが2020年9月に発表した「Ge
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く