並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 362件

新着順 人気順

GPUの検索結果1 - 40 件 / 362件

  • 1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も

    1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も 2024.02.28 Updated by Ryo Shimizu on February 28, 2024, 16:46 pm JST 2月は中国では春節というお正月があり、春節にはみんな休む。 それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。 春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。 そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoftの中国チームがとてつもないLLMをリリース

      1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も
    • ChatGPT開発に必要なGPUは3万基、日本の国策AI基盤は1千基。目前に迫る日本のAI敗戦

      ChatGPT開発に必要なGPUは3万基、日本の国策AI基盤は1千基。目前に迫る日本のAI敗戦 2023.08.19 Updated by Ryo Shimizu on August 19, 2023, 16:47 pm JST そろそろ業界の最深部でしか知られてなかった事実がニュースになって来始めているのでここで本当の問題を明らかにしておきたい。 AI開発に必須なのは、計算資源である。そしてこれは現在のところ、事実上NVIDIAが一社独占している。 NVIDIA以外の半導体がいくら「AIに特化しています」と能書きを垂れていてもごくわずかな例外を除いてはほとんど全部が誇大広告である。 たとえばApple Silliconは、「ニューラルエンジン」と称するモジュールを内蔵しているが、これを使ってAIの学習をすると、なんとCPUよりも遅い。信じられないかもしれないが、これが残酷な事実なのである

        ChatGPT開発に必要なGPUは3万基、日本の国策AI基盤は1千基。目前に迫る日本のAI敗戦
      • 【レビュー】 至って普通のノートPCでもゲームがサクサク動く!ドック機能を備えた超小型GPUボックス「GPD G1」を試す

          【レビュー】 至って普通のノートPCでもゲームがサクサク動く!ドック機能を備えた超小型GPUボックス「GPD G1」を試す
        • 「CPU」「GPU」「NPU」「TPU」の違いを分かりやすく説明するとこうなる

          AIの開発に欠かせない機械学習には、GPUやNPU、TPUなどの処理チップが用いられていますが、それぞれの違いは分かりにくいものです。そんなCPUやGPU、NPU、TPUの違いをGoogleやクラウドストレージサービスを展開するBackblazeがまとめています。 AI 101: GPU vs. TPU vs. NPU https://www.backblaze.com/blog/ai-101-gpu-vs-tpu-vs-npu/ Cloud TPU の概要  |  Google Cloud https://cloud.google.com/tpu/docs/intro-to-tpu?hl=ja ◆CPUとは? CPUは「Central Processing Unit」の略称で、PCでの文書作成やロケットの進路計算、銀行の取引処理など多様な用途に用いられています。CPUでも機械学習を行うこ

            「CPU」「GPU」「NPU」「TPU」の違いを分かりやすく説明するとこうなる
          • NEC、「標準的GPU 1基で動く」世界トップクラスの日本語LLM

              NEC、「標準的GPU 1基で動く」世界トップクラスの日本語LLM
            • 【2024年版】WSL2+Ubuntu24.04+Docker+GPUでつくる機械学習環境

              はじめに WSL2(Windows Subsystem for Linux 2)は、Microsoft Windows上でLinuxカーネルを直接実行できるようにする機能です。 この記事ではWSL2環境にDockerを導入しGPUを用いた機械学習環境を構築する手順を紹介します。 構築イメージは以下の図の通りです。NvidiaGPUを搭載したマシンにWSL2環境を構築します。Dockerを用いてコンテナを用意し、CUDAは各コンテナ内のCUDA Toolkitを用いて利用します。 今回開発するPCのスペックは以下の通りです。 Windows 11 Windows version: 22H2 GPU:NVIDIA Geforce RTX 3060 12GB 設定 1. WSL2を有効化 デフォルトではWSL2環境が無効化されている可能性があるので、始めに有効化しておきましょう。 「コントロール

                【2024年版】WSL2+Ubuntu24.04+Docker+GPUでつくる機械学習環境
              • GPUの性能比較がひと目で行えるヒエラルキー図公開―Nvidia「RTX 4090」全条件でTOPという結果に | Game*Spark - 国内・海外ゲーム情報サイト

                  GPUの性能比較がひと目で行えるヒエラルキー図公開―Nvidia「RTX 4090」全条件でTOPという結果に | Game*Spark - 国内・海外ゲーム情報サイト
                • Unity、ゲームの最適化に関する電子書籍を無料公開。「モバイル」「コンソール/PC」向け2冊で、ボトルネックの特定方法やメモリ・GPU最適化などを解説

                  Unity Technologiesがゲームの最適化について解説する電子書籍を無料で公開 メモリやGPU管理、ボトルネック特定の方法などを解説したPDF資料 モバイル向けとコンソール/PC向けの2冊があり、各デバイス向け解説も Unity Technologiesは2023年12月6日、Unityにおけるゲームの最適化を解説する2冊の電子書籍を公開しました。 公開されたのは、モバイル向け開発ガイド『OPTIMIZE YOUR MOBILE GAME PERFORMANCE』と、コンソール/PC向け開発ガイド『OPTIMIZE YOUR GAME PERFORMANCE FOR CONSOLES AND PC』です。 各ガイドには、ボトルネックの特定方法やメモリ管理、プログラミングやアセット管理など、さまざまなカテゴリーにおける最適化が解説されています。また、各ガイドそれぞれに、対象デバイス

                    Unity、ゲームの最適化に関する電子書籍を無料公開。「モバイル」「コンソール/PC」向け2冊で、ボトルネックの特定方法やメモリ・GPU最適化などを解説
                  • GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか?

                    GPT-1は1億1700万個のパラメーターを持つ言語モデルで、GPT-2では15億、GPT-3では1750億とパラメーター数が増加するにつれて言語モデルの性能が上がってきています。しかしパラメーター数が増加するにつれてトレーニングに必要なデータの数やトレーニング中に使用するメモリの量も増加し、トレーニングのコストが大きく増加してしまいます。そんな中、メモリの消費量を激減させつつ少ないデータでトレーニングできる手法「QLoRA」が登場しました。 [2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs https://arxiv.org/abs/2305.14314 artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs https://github.com/art

                      GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか?
                    • NVIDIA、1パッケージに2ダイの新型GPU「Blackwell」。AI性能は学習4倍、推論30倍に

                        NVIDIA、1パッケージに2ダイの新型GPU「Blackwell」。AI性能は学習4倍、推論30倍に
                      • 生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた

                        ではそもそも“1bit”とは何が1bitなのか、どうして1bitになるとGPUが不要になるのか。LLMでGPUが不要になるとどんな世界が訪れるのか。オーダーメイドによるAIソリューション「カスタムAI」の開発・提供を行うLaboro.AIの椎橋徹夫CEOに聞いた。 プロフィール:椎橋徹夫 米国州立テキサス大学理学部卒業後、ボストンコンサルティンググループに参画。消費財や流通など多数のプロジェクトに参画した後、社内のデジタル部門の立ち上げに従事。その後、東大発AI系のスタートアップ企業に創業4人目のメンバーとして参画。AI事業部の立ち上げをリード。東京大学工学系研究科松尾豊研究室にて「産学連携の取り組み」「データサイエンス領域の教育」「企業連携の仕組みづくり」に従事。同時に東大発AIスタートアップの創業に参画。2016年にLaboro.AIを創業し、代表取締役CEOに就任。 ──まず、1bi

                          生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた
                        • 自宅PCでクラスターを構築:コンシューマーGPUの枠を超え、大型LLMをローカルで動かす!|AIサトシ

                          最近オープンになる大規模言語モデル(LLM)が、軒並みGPT-4レベルの性能となっています Huggngfaceで無料でダウンロードできるのですが、問題は必要VRAM容量です 話題の、Command-r-Plusは、日本語性能について評価が高く、一部の性能はGPT-4並みと言われますが、さすがに大型で104Bパラメータもあるため、4bitに量子化しても60GB程度のVRAMが必要となります。 コンシューマークラスのGPUの最高峰、RTX4090は、VRAM24GBのため、command-r-plusをすべてGPUに載せて推論しようと考えると、3台のマルチGPUデスクトップが必要です しかし、RTX4090は450W消費のGPUのため冷却機構が大きく、1デスクトップに3台収めるのは至難の業となります。 先日、水冷ラジエーター付きRTX4090で、マルチGPUデスクトップを作成しました。 水冷

                            自宅PCでクラスターを構築:コンシューマーGPUの枠を超え、大型LLMをローカルで動かす!|AIサトシ
                          • AWS・Azure・Cudoなどが提供するクラウドGPUが1時間あたり何ドルで利用できてどういう構成なのかの一覧表

                            ニューラルネットワークのトレーニングや実行にはGPUが使われることが多く、クラウドサービスのGPUの需要はAIの普及に伴い高まりつつあります。そんなクラウドGPUの構成や価格を、AI関連のニュース&コミュニティサイト・The Full Stackが公開しました。 Cloud GPUs - The Full Stack https://fullstackdeeplearning.com/cloud-gpus/ 表はクラウドサーバーとサーバーレスの2種類に分かれています。ピックアップされたサービスはAmazon Web Service(AWS)やMicrosoft Azure、Cudo Compute、Google Cloud Platform(GCP)、AWS Lambdaなど。Hugging Faceなど一部サービスの記載はありません。 クラウドサーバーの表がこんな感じ。最左列にサービス名

                              AWS・Azure・Cudoなどが提供するクラウドGPUが1時間あたり何ドルで利用できてどういう構成なのかの一覧表
                            • GPUなサービスをそこそこな費用で運営する | Kai INUI

                              A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team

                                GPUなサービスをそこそこな費用で運営する | Kai INUI
                              • なぜ日本はGPUのない「富岳」でLLMを研究するのか 外国に後れを取らないための“現実的な理由”

                                米OpenAIの大規模言語モデル(LLM)・GPT-4は今、世界を大きく塗り替え続けている技術の一つだ。世界各国の企業がこぞってLLMの開発を進めている。特にGAFAなどの巨大企業は、その膨大な資源を使ってすでにいくつものLLMを世に放っている。 そんな中、日本では理化学研究所と富士通、東京工業大学、東北大学が、スーパーコンピュータ「富岳」を使ったLLMの研究を今まさに進めている。学習手法の研究からデータの法的な扱いまで幅広く検討し、日本のLLM開発の基盤を作るのが目的だ。 深層学習といえば、今ではGPUを使うのが一般的になっている。しかし富岳はそのGPUを搭載していない。日本にはGPU搭載スパコンも存在するのに、なぜ富岳を使ってLLMを研究するのか。 今回は富士通研究所・コンピューティング研究所の中島耕太所長と白幡晃一さんに、富岳を使ったLLM研究について、その意義を聞いた。富岳は確かに

                                  なぜ日本はGPUのない「富岳」でLLMを研究するのか 外国に後れを取らないための“現実的な理由”
                                • 初めてでもできる! 自宅PCのGPUを「Google Colab」から使い、生成AIをカンタンに動かす方法【イニシャルB】

                                    初めてでもできる! 自宅PCのGPUを「Google Colab」から使い、生成AIをカンタンに動かす方法【イニシャルB】
                                  • いま、生成AIでNVIDIA GPUが引っ張りだこなワケ

                                      いま、生成AIでNVIDIA GPUが引っ張りだこなワケ
                                    • GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み

                                      ChatGPTやBardなどで利用されているチャットAIは、トレーニングだけでなく動作させるのにも数十~数百GBのVRAMなど非常に高いマシンスペックを要求するのが一般的です。そうした状況を変えるべく、GPU不要でチャットAIを動作させるライブラリ「GGML」の開発が進められています。 ggml.ai http://ggml.ai/ ggerganov/ggml: Tensor library for machine learning https://github.com/ggerganov/ggml GGMLの特徴は下記の通り。 ・Cで記述 ・16bit floatをサポート ・4bit、5bit、8bitの整数での量子化をサポート ・自動微分 ・「ADAM」「L-BFGS」という最適化アルゴリズムを搭載 ・Appleシリコンへの対応&最適化 ・x86アーキテクチャではAVXおよびAVX

                                        GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み
                                      • 【西川和久の不定期コラム】 VRAMが少ないGPUで画像生成AIを諦めていた人に。「Stable Diffusion WebUI Forge」登場!

                                          【西川和久の不定期コラム】 VRAMが少ないGPUで画像生成AIを諦めていた人に。「Stable Diffusion WebUI Forge」登場!
                                        • カードサイズなのに従来のファンよりもCPUやGPUをガッツリ冷やせて静かな「ソリッドステートアクティブ冷却」とは?

                                          コンピューターを動かす上でどうしても出てしまう熱を排出するため、コンピューターには大きなファンを回して温度を下げる空冷式や、パイプを張り巡らせて冷却剤を通して温度を下げる水冷式の冷却装置が取り付けられています。アメリカのスタートアップ・Frore Systemsが、手のひらサイズで従来よりも静かで冷却効率の高い技術「Solid State Active Cooling(ソリッドステートアクティブ冷却)」を開発し、2023年5月30日~6月2日まで開催されたアジア最大規模のコンピュータ見本市「COMPUTEX TAIPEI 2023」で公開しました。 Radical AirJet cooling chips can double a laptop's performance | PCWorld https://www.pcworld.com/article/1388332/new-airje

                                            カードサイズなのに従来のファンよりもCPUやGPUをガッツリ冷やせて静かな「ソリッドステートアクティブ冷却」とは?
                                          • AMD「Ryzen 8000G」発表。高性能内蔵GPUをデスクトップに

                                              AMD「Ryzen 8000G」発表。高性能内蔵GPUをデスクトップに
                                            • CPUもGPUもライバル完封。Qualcomm、AppleやIntelに勝利宣言

                                                CPUもGPUもライバル完封。Qualcomm、AppleやIntelに勝利宣言
                                              • GPUからの脱却と「AI半導体」の可能性【西田宗千佳のイマトミライ】

                                                  GPUからの脱却と「AI半導体」の可能性【西田宗千佳のイマトミライ】
                                                • 「ゼロからGPU開発」に経験なし&わずか2週間で成功した猛者が登場

                                                  コードなしでWeb3コンテンツなどを開発することができるプラットフォーム・thirdwebの創設者であるadammaj氏が、「経験なしで2週間でゼロからGPUを構築した」と報告しています。 I've spent the past ~2 weeks building a GPU from scratch with no prior experience. It was way harder than I expected. Progress tracker in thread (coolest stuff at the end)👇 pic.twitter.com/VDJHnaIheb— adammaj (@MajmudarAdam) ◆ステップ1:GPUアーキテクチャの基礎を学ぶ adammaj氏はまず、最新のGPUがアーキテクチャレベルでどのように機能しているのかを理解しようとしたそうで

                                                    「ゼロからGPU開発」に経験なし&わずか2週間で成功した猛者が登場
                                                  • Supercomputing Contest 2013/GPUプログラミング資料 - Supercomputing Programing Contest Official Site

                                                    2023-09-13 SupercomputingContest2023 2023-09-06 Supercomputing Contest News News/sc230906 2023-09-01 News/sc230830 2023-08-28 News/sc230828 SupercomputingContest2023/本選結果 2023-08-01 MenuBar 2023-06-29 News/sc230629 SupercomputingContest2023/予選結果 2023-06-12 SupercomputingContest2023/予選・認定問題Q&A 2023-06-01 SupercomputingContest2023/問題および関連ファイル群更新履歴 2023-05-31 News/sc230531 2023-05-30 News/sc230530 20

                                                    • GPUなしでもできる画像生成AI ~Web UI「A1111」の環境構築と利用方法を伝授【生成AIストリーム】

                                                        GPUなしでもできる画像生成AI ~Web UI「A1111」の環境構築と利用方法を伝授【生成AIストリーム】
                                                      • 高速なPython互換言語の「Mojo」、そのままGPUで実行可能に。「MAX GPUs」発表。ModCon '23

                                                        高速なPython互換言語の「Mojo」、そのままGPUで実行可能に。「MAX GPUs」発表。ModCon '23 高速なPython互換言語「Mojo」の開発元であるModular社は、同社として初のイベント「ModCon '23」を12月4日にサンフランシスコで開催しました。 基調講演で、高速なPython互換言語の「Mojo」を含むAI処理を高速に実行するプラットフォーム「MAX」(Modular Accelerated Xecution (MAX) Platform)がNVIDIAのGPU対応となり、さらに高速な処理が可能となる「MAX GPUs」が発表されました。

                                                          高速なPython互換言語の「Mojo」、そのままGPUで実行可能に。「MAX GPUs」発表。ModCon '23
                                                        • 1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

                                                          地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラメータ規模で言えば70億~130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。 大きなモデルをGPU寄せ集めしつつ遊びたい! しかしながら、コンシュマー向けのGPUにおいては、7B

                                                            1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
                                                          • NVLink BridgeでGPUを繋いでも1GPUにはなりません | HPCシステムズ Tech Blog

                                                            『NVLink Bridgeで複数GPUを繋いだら、それらが1GPUとして扱えるようになるんでしょ?』という誤解をされているお客様をしばしばお見受けいたします。こちらの記事では、それが誤解であること、また、SLIやUnified Memoryといった関連する情報についても整理して解説いたします。間違った期待を抱いて失敗しないように、正しい理解を深めていきましょう。 GPUのメモリ空間は他デバイスから隔絶されています GPU上には演算するためのプロセッサと、データを一時的に置いておくためのメモリ(VRAM)が搭載されています。GPUのメモリを、CUDAで書かれたプログラムから利用するには、cudaMallocでメモリ領域を確保し、cudaMemcpyを使ってホスト(CPU側)のメモリとデータの送受信を行い、GPU上で演算kernelとする関数(以下、GPU-Kernel)を呼び出し、最後にc

                                                              NVLink BridgeでGPUを繋いでも1GPUにはなりません | HPCシステムズ Tech Blog
                                                            • Pythonのように書けてGPU上で並列処理できる新プログラミング言語「Bend」、2D画像→3Dを高精度生成するGoogle「CAT3D」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                              2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第47回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ GPU上でネイティブ動作する並列処理が可能な新プログラミング言語「Bend」とランタイムシステム「HVM2」 2D画像から3Dコンテンツを生成する「CAT3D」をGoogleが開発 大規模言語モデルは追加学習や新知識で幻覚生成が増加。Googleなどが調査 画像とテキストを使った長文生成が得意なAIモデル「Chameleon」をMetaが開発 Transformerを超える「Mamba」は視覚認識タスクに必要か? 開発した「MambaOut」モデルで検証 GPU上でネイティブ動作する並列

                                                                Pythonのように書けてGPU上で並列処理できる新プログラミング言語「Bend」、2D画像→3Dを高精度生成するGoogle「CAT3D」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                              • CPU・GPU・ストレージの性能をワンクリックで測定できるフリーソフト「CrystalMark Retro」レビュー、CrystalDiskMark作者の新作で簡単操作でPCの性能を測定可能

                                                                CPUやGPU、ストレージの性能を簡単に測定できるベンチマークソフト「CrystalMark Retro」が2024年3月31日にリリースされました。CrystalMark Retroはストレージベンチマークソフト「CrystalDiskMark」やストレージ管理ソフト「CrystalDiskInfo」といった定番ソフトの作者であるhiyohiyo氏の新作ということで、CrystalMark Retroも定番ソフトに仲間入りしそうな気配を感じます。そんなCrystalMark RetroをダウンロードしてPCの性能を測定するまでの手順を確認してみました。 CrystalMark Retro - Crystal Dew World [ja] https://crystalmark.info/ja/software/crystalmarkretro/ CrystalMark Retroをダウン

                                                                  CPU・GPU・ストレージの性能をワンクリックで測定できるフリーソフト「CrystalMark Retro」レビュー、CrystalDiskMark作者の新作で簡単操作でPCの性能を測定可能
                                                                • LoRA のもう一つの大きなメリット、GPUメモリ共有しつつ別のタスク処理モデルへ即時に切り替える方法 - A Day in the Life

                                                                  低ランク行列を追加することで、大元のモデルを維持しつつ少ないコストで学習できる LoRA(Low-Rank Adaptation of Large Language Models)。先日、日本語でも大規模パラメータモデル cyberagent/open-calm-7b や rinna/japanese-gpt-neox-3.6b 等々がリリースされたり、HuggingFaceからはtransformersでLoRAを簡単に実現できるライブラリ、peft がリリースされたことで、試したことがある方も多いと思います。 ただ、LoRAのメリットについて主に学習の話が殆どで、もう一つの大きなメリットであるLLMのベースモデルのメモリを共有しつつ、複数のタスクをこなす方法の紹介は見かけたことがなかったので、それをpeftで行う方法についてのお話です。 なお、LoRAとは何か?というお話は、輪講資料

                                                                    LoRA のもう一つの大きなメリット、GPUメモリ共有しつつ別のタスク処理モデルへ即時に切り替える方法 - A Day in the Life
                                                                  • 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話

                                                                    3行でまとめると LLM分散学習ハッカソンに参加し、Vision-Languageモデルの一つであるBLIP2のHuggingFaceモデルを拡張して動画からテキスト生成するVideoBLIPを作成しました。ソースコードはGithubで公開しています。 運転映像に対する説明文章を学習に用いてVideoBLIPの学習を行い、運転映像を説明するモデルを作成しました。(以下のように運転映像に対して説明文が出力されます) 学習を高速化するためにマルチノードで学習を行えるようにし、実際にABCIのGPU80台を使って分散学習を行い、4GPUで行った場合の20倍の計算速度が実現できました(Strong Scaling!) 分散並列学習にはDeepSpeedを用いました。 はじめに Brain Researchチームで自動運転AIを開発している棚橋です。Brain Researchチームではレベル5の完

                                                                      走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話
                                                                    • [GDC 2024]CPUを使わずにGPUが自発的に描画するパイプライン「Work Graph」がDirectX 12に正式採用

                                                                      [GDC 2024]CPUを使わずにGPUが自発的に描画するパイプライン「Work Graph」がDirectX 12に正式採用 ライター:西川善司 セッションタイトルを訳すなら,「ようこそ,未来のGPUプログラミングモデル『GPU Work Graph』へ」 米国時間2024年3月18日に行われたGDC 2024の技術セッション「Advanced Graphics Summit: GPU Work Graphs: Welcome to the Future of GPU Programming」において,AMDとMicrosoftは共同で,DirectX 12の新機能「Work Graph」を発表した(関連リンク)。本稿では,Work Graphとは何で,どのような利点をもたらすのかを解説したい。 セッションを担当したMicrosoftのShawn Hargreaves氏(Dev Man

                                                                        [GDC 2024]CPUを使わずにGPUが自発的に描画するパイプライン「Work Graph」がDirectX 12に正式採用
                                                                      • 生成AIでGPU不足深刻化、NVIDIA新投入のGH200とは? メタやテスラが抱える驚きのGPU数

                                                                        現在シリコンバレーで最も注目される話題は「GPU不足」といわれている。生成AIへの関心が高まる中、大規模言語モデルの開発が活発化し、それに伴いGPUをめぐる取得競争が激化しているためだ。そのため、NVIDIAが新たに発表した「GH200」にも注目が集まる。GH200はどんなGPUになるのか。そもそもなぜGPUが不足しているのか、現行GPU「H100」や「A100」は誰が、何個取得したのか、ChatGPTの開発にGPUはどれほど必要なのか。GPU関連の注目トピックを紹介しよう。 バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上

                                                                          生成AIでGPU不足深刻化、NVIDIA新投入のGH200とは? メタやテスラが抱える驚きのGPU数
                                                                        • GPU非搭載ノートPCでもコマンド不要で各種言語モデルの性能を試せる実行環境「LM Studio」レビュー

                                                                          文章生成AIの研究開発が急速に進んでおり、無料で使える大規模言語モデル(LLM)も数多く公開されています。しかし、LLMの動作を実際に試すには高性能なハードウェアや複雑な環境構築が必要なことが多いため、最初から諦めている人も多いはず。無料で公開されている「LM Studio」を使えば、一般的な性能のPCでもコマンド不要で気軽にLLMの動作させられるとのことなので、実際にLM Studioを使ってLLMを使う手順を確かめてみました。 LM Studio - Discover, download, and run local LLMs https://lmstudio.ai/ ◆LM Studioのインストール LM StudioはWindows版とmacOS版が存在するほか、Linux向けのベータ版も存在します。Windowsで使う場合の必要条件は「AVX2に対応したCPU」のみ。近年販売さ

                                                                            GPU非搭載ノートPCでもコマンド不要で各種言語モデルの性能を試せる実行環境「LM Studio」レビュー
                                                                          • Raspberry Pi PicoでGPUを作る。element14が動画を公開

                                                                              Raspberry Pi PicoでGPUを作る。element14が動画を公開
                                                                            • NVIDIAが「消費電力1000Wの爆熱GPU」を開発中か

                                                                              世界有数のPCメーカーであるDellの決算発表会で「NVIDIAが消費電力1000WのGPUを開発している」という旨の発言が飛び出しました。 Exhibit 99.1 Earnings 8K Q4 FY24 - Q4 FY24 Financial Results Press Release.pdf (PDFファイル)https://investors.delltechnologies.com/static-files/12b9be7b-2d4c-4d63-b7d3-8bb467724952 Dell exec reveals Nvidia has a 1,000-watt GPU in the works • The Register https://www.theregister.com/2024/03/05/nvidias_b100_gpu_1000w/ 「NVIDIAが消費電力100

                                                                                NVIDIAが「消費電力1000Wの爆熱GPU」を開発中か
                                                                              • 大規模モデルを単一GPUで効率的に学習する方法|npaka

                                                                                以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。 ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ

                                                                                  大規模モデルを単一GPUで効率的に学習する方法|npaka
                                                                                • 1つのGPU/CPUで推論可能な超軽量LLM「tsuzumi」を24年3月から提供へ

                                                                                  NTTは2023年11月、同社が独自開発した大規模言語モデル(LLM)「tsuzumi」を2024年3月から提供開始すると発表した。 tsuzumiのコンセプトについて、NTT 執行役員 研究企画部門長の木下真吾氏は「専門知識を持った、パラメーターサイズの小さなLLMの実現だ。tsuzumiは、パラメーターサイズを抑えつつ、言語学習データの質と量を向上させることで、軽量化と専門性を両立した」と語った。 専門知識を持った軽量LLM「tsuzumi」 tsuzumiは、パラメーターサイズが6億または70億と軽量でありながら、「世界トップクラス」(同社)の日本語処理性能を持つLLMだ。軽量なため、1つのGPUやCPUで推論動作が可能で、学習やチューニングに必要な時間やコストを軽減できるという。日本語/英語に対応する他、表が含まれる誓約書や契約書といった図表文書の視覚読解など、さまざまな形式にも対

                                                                                    1つのGPU/CPUで推論可能な超軽量LLM「tsuzumi」を24年3月から提供へ