並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 180件

新着順 人気順

ディープラーニングの検索結果41 - 80 件 / 180件

  • 大規模言語モデル

    2023年度統計関連学会連合大会チュートリアルセッション 言語モデルと自然言語処理のフロンティア

      大規模言語モデル
    • Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog

      こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論

        Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog
      • Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog

        こんにちは ハタ です。 最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います 音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります 構築していく上で色々試行錯誤したのでそれが紹介できればなと思っています どんなものを作ったか 前提知識: 配信基盤 前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompress Speach To Text コンテナイメージ まとめ We are hiring! どんなものを作ったか 今回作ったものは Mirrativで配信されるすべての音声を対象に文字起こしを行う シス

          Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog
        • 深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta

          深層学習の技術が著しく進歩した結果、コンピュータビジョンや自然言語処理、音声信号処理などの分野では深層学習モデルの性能が古典的な手法のを大きく上回っており、すでにスタンダードなアプローチになっています。 しかし、テーブルデータを扱うタスクにおいては、深層学習の有効性は明らかになっていません。本記事ではテーブルデータにおける従来手法と深層学習の比較論文のご紹介をしていきます。 背景近年、テーブルデータを扱う深層学習モデルも登場し、一部の論文では決定木ベースのモデルと同等かそれ以上の性能を示しています。しかし、私が実務で試す中では決定木ベースのモデルの方が性能が高く、学習と推論が速く運用コストでも優れているため、深層学習モデル採用には至っていません。 より一般的なテーブルデータのタスクにおける、決定木ベースモデルと深層学習モデルとの性能比較の文献を調べたところ、NeurIPS 2022で発表さ

            深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta
          • NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ

            先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。 これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ、「reasonableな」努力で再現できたのはわずかに7個に過ぎず、その中でも1個は論文中で主張されたベースラインを超えることは出来なかったと報告しています。 ただ、この報告はNN研究における再現性に関する議論のあくまでも一例であり、実際コロナ禍以前から「論文中ではSOTAを達成と書いているのに同じ実装をどう組んでもSOTAに達しない」みたいな業界噂話はそこかしこで耳にしたものでした。しかしながら、実際のソフトウェアやアプリケーションとしてそれらのNN手法が用いられて、尚且つその結果として何かしらの不具合でも起きない限りは、機械学習業界の

              NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ
            • WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場

              WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場 ONNX Runtime WebがWebGPUに対応。Webブラウザ上でさらに高速な推論処理が可能になった。Stable Diffusion Turbo全体をWebブラウザ上で高速に実行可能で、RTX4090を用いた場合1秒以内で結果が出力される。 ONNX Runtime Webの基になっている「ONNX Runtime」はクロスプラットフォーム対応の推論エンジンです。TensorFlow、PyTorch、SciKit Learnなどをはじめとするさまざまな機械学習のモデルに対応し、これらで生成されたモデルによる推論処理をプラットフォームに依存せず実行するランタイムの役割を果たします

                WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場
              • ドナルド・トランプが「TikTokを禁止すると国民の敵Facebookに力を与えてしまう」と発言

                共和党大統領予備候補のドナルド・トランプ氏が、中国系ソーシャルメディアアプリのTikTokをアメリカで全面的に禁止しようとする動きについて懸念を表明しました。これは、議会が可決すれば禁止法案に署名すると述べたジョー・バイデン大統領の見解とは対照的です。 Trump says TikTok ban would empower Meta, slams Facebook https://www.cnbc.com/2024/03/11/trump-says-a-tiktok-ban-would-empower-meta-slams-facebook-as-enemy-of-the-people.html TikTok ban: House vote set for Wednesday morning https://www.axios.com/2024/03/11/tiktok-ban-congr

                  ドナルド・トランプが「TikTokを禁止すると国民の敵Facebookに力を与えてしまう」と発言
                • Wolfram氏によるChatGPTの仕組みと機能に関する解説について|IT navi

                  数式処理システムのMathematicaや質問応答システムのWolfram Alphaを開発したStephen Wolfram氏が「What Is ChatGPT Doing … and Why Does It Work?」(ChatGPTは何をしていて、なぜそれがうまく機能するのか?)と題するブログ記事を発表しました。 この記事は、とても分かりやすい言葉で、沢山例を挙げて詳しく説明していますので、ChatGPTの仕組みを理解したいと思っている人には必読の記事だと思います。 ブラウザの翻訳機能を利用して日本語で読むこともできますが、易しい言葉で書かれた文章であるにも関わらず、これを完全に理解するのは簡単なことではありません。 前半は大規模言語モデル、ニューラルネットワーク、Transformerなどの仕組みについて相当詳しく説明しており、後半はChatGPTに関するWolfram氏独自の解

                    Wolfram氏によるChatGPTの仕組みと機能に関する解説について|IT navi
                  • これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z

                    導入 本当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。 その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。 これは本当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。 まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日本語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。 ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。 たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。 言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

                      これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z
                    • Google I/O 2023基調講演まとめ

                      米Googleは5月10日(現地時間)、年次開発者会議「Google I/O」をハイブリッドで開催した。約2時間20分の基調講演で発表されたことを時系列で簡単にまとめる。なお、開発者向け基調講演は別途行われており、技術的な詳細はそちらで発表された。 ハードウェアも発表されたが、全体的にAI中心の講演となった。オープニングに流れた動画もGoogleが数年前からAIに取り組んできたことを示すもので、「われわれは(AIに)大胆な野心を持っているが、アプローチには常に責任がある」とし、そのアプローチの方針は「Make AI helpful for everyone(AIを誰にとっても役立つものに」だという。 最初に登壇したスンダー・ピチャイCEOは「みなさんもご存じの通り、今年はAIが非常に忙しい年になっており、私達にも語ることがたくさんあります」と口火を切った。 「生成AIにより、Google検

                        Google I/O 2023基調講演まとめ
                      • 従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか?

                        ChatGPTやBardなど、2023年7月時点で商用利用されている大規模言語モデルはほとんど全てがトランスフォーマーというアーキテクチャを利用したモデルですが、トランスフォーマー型のモデルは入力の長さの2乗に比例して計算量が増加するため、入力サイズが制限されてしまう問題があります。そうした問題に応えて、大きいデータへの対応や推論時のメモリ使用量の削減を達成しつつトランスフォーマー型に匹敵する性能を出せるアーキテクチャ「RWKV」について、著者の一人がブログで解説しています。 The RWKV language model: An RNN with the advantages of a transformer | The Good Minima https://johanwind.github.io/2023/03/23/rwkv_overview.html How the RWKV l

                          従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか?
                        • IntelのMeteor Lake搭載ノート、dGPUなしでStable Diffusionを高速処理

                            IntelのMeteor Lake搭載ノート、dGPUなしでStable Diffusionを高速処理
                          • 『ゼロから作る Deep Learning ❺』 公開レビューのお知らせ|斎藤 康毅(さいとう こうき)

                            問題に感じた箇所や改善すべきと思った点など、コメントいただけますと幸いです。レビューに貢献していただいた方には、感謝の印として、本書に名前を記載させていただく予定です(もちろん、同意のある方のみです)。下記のように、レビューアの方の名前をクレジットとして掲載する予定です。 左は『ゼロから作るDeep Learning ❷』、右は中国語に翻訳された『Deep Learning 2』なお、本のタイトルに「❺」とありますが、前作までの知識がなくても読める内容になっています。前提条件としては、Pythonと数学の基本的な知識が必要になります。数式も多く登場します。ちなみに、本書の概要は次のとおりです。 人気シリーズの第5弾。今回のテーマは「生成モデル」です。本書では「正規分布」から「拡散モデル」に至るまでの技術を繋がりのあるストーリーとして展開します。読者は小さな学びを積み重ねながら、ステップバイ

                              『ゼロから作る Deep Learning ❺』 公開レビューのお知らせ|斎藤 康毅(さいとう こうき)
                            • 商用無料、新作フリーフォントがリリース! 柔らかで穏やかな、紙面を彩る見出し用ゴシック体「紙モノゴシック」

                              「晩秋レトロミン」「筆竹仮名B」などのフリーフォントをリリースされている二人組ユニット「すずみばと書林」から、新作フリーフォントがリリースされました。 今回は、印刷での使用を目的にデザインされた「紙モノゴシック」 とは言...記事の続きを読む

                                商用無料、新作フリーフォントがリリース! 柔らかで穏やかな、紙面を彩る見出し用ゴシック体「紙モノゴシック」
                              • モデルパラメータの算術 - ジョイジョイジョイ

                                深層モデルのパラメータを一列に並べてベクトルにします。このベクトルは大規模なモデルであれば何十億次元にもなります。一見、意味のない数値の羅列のようですが、このベクトルはベクトルとして深い意味があることが分かってきています。例えば、 と を異なるパラメータベクトルとすると、 や をパラメータとして持つモデルはちゃんと機能します。本稿では、このようなモデルパラメータの算術を用いた手法とその背後にある理論について解説します。 モデルスープ タスクベクトル モデルパラメータとニューラルタンジェントカーネル おわりに モデルスープ モデルスープ [Wortsman+ ICML 2022] は複数のモデルパラメータを平均することで性能を上げる手法です。事前学習モデル からはじめて、様々なハイパーパラメータで訓練した結果のパラメータを とします。これらを平均したベクトル は個々のモデルよりも性能が高く、

                                  モデルパラメータの算術 - ジョイジョイジョイ
                                • Magika

                                  • 1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

                                    地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラメータ規模で言えば70億~130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。 大きなモデルをGPU寄せ集めしつつ遊びたい! しかしながら、コンシュマー向けのGPUにおいては、7B

                                      1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
                                    • ロボット工学や自動運転などで顕在化するAI課題を解決、MIT発「Liquid Neural Networks」とは何か - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                      現在の人工知能(AI)を取り巻く環境では、 大規模言語モデル(LLM)の話題から、ますます大規模なニューラルネットワークの開発競争が起きている。しかし、すべてのアプリケーションが、大規模なディープラーニングモデルの計算量とメモリの要求をできるわけではない。 このような環境の制約が、いくつかの興味深い研究の方向性につながっている。MIT(マサチューセッツ工科大学)の CSAL(コンピュータ科学・人工知能研究所)の研究者が開発した新しいタイプのディープラーニングアーキテクチャ「Liquid Neural Networks」は、特定の AI 問題に対して、コンパクトで適応性が高く、効率的なソリューションを提供する。これらのネットワークは、従来のディープラーニングモデルに内在する課題のいくつかに対処するように設計されている。 Liquid Neural Network は AI の新たなイノベーシ

                                        ロボット工学や自動運転などで顕在化するAI課題を解決、MIT発「Liquid Neural Networks」とは何か - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                      • 高速な深層学習モデルアーキテクチャ2023

                                        深層学習モデル(畳み込みニューラルネットワーク; CNN、Vision Transformer; ViT)の高速化手法のまとめ より詳細な資料は下記 CNN: https://speakerdeck.com/yu4u/moteruakitekutiyaguan-dian-karanogao-su-hua-2019 Vision Transformer: https://speakerdeck.com/yu4u/jin-nian-nohierarchical-vision-transformer

                                          高速な深層学習モデルアーキテクチャ2023
                                        • ゼロからはじめるPython(106) プログラム生成AIのCodeLlamaを手元のPCでも動かしてみよう

                                          ChatGPTを筆頭にした「大規模言語モデル(LLM)」と呼ばれるAIが話題に上らない日はない。このAIが得意なタスクには「プログラムの自動生成」が挙げられるが、Metaからプログラム生成に特化したCodeLlamaが商用利用可能なオープンなライセンスでリリースされた。そこで実際に使ってみよう。 CodeLlamaで素数判定のプログラムを自動生成させたところ プログラミングは大規模言語モデルが得意とするタスク リリースからわずか2ヶ月で1億ユーザーを達成した「ChatGPT」の公開から本稿執筆時点で8ヶ月が過ぎた。筆者も業務でChatGPTをはじめ、Github Copilotなど、大規模言語モデル(LLM)関連サービスを使わない日はないくらいだ。 特に「プログラミング」は、間違いなく大規模言語モデルが得意とするタスクであり、GitHub Copilotを利用している多くの人がその利便性を

                                            ゼロからはじめるPython(106) プログラム生成AIのCodeLlamaを手元のPCでも動かしてみよう
                                          • ChatGPTはどのようなシチュエーションで使えるか 活用シーンと正しい答えが出やすくなる命令のやり方を解説

                                            システムから言語モデルがどのように使えるか、その時どういうことに気をつける必要があるかを考える「『ChatGPTなどの言語モデルはどのようにシステムで使えるか』きしだなおき氏」。ここで、LINE Fukuoka株式会社のきしだなおき氏が登壇。まずは、ChatGPTの概要と、人間がどう使うかについて話します。 きしだ氏の自己紹介 きしだなおき氏:今日は「ChatGPT」などの言語モデルがどのようにシステムで使えるかという話を、概要レベルでやりたいと思います。まだ細かい知見は溜まっていない……。たぶん世界中でまだ知見が溜まっていないので、今は知見を溜めていくところだという話をしたいと思っています。 まず自己紹介です。LINE Fukuokaで働いています。役職的にはDeveloper Relationsなので、別に仕事でLLMを触っているわけではないです。Twitter(現X)は@kis(とい

                                              ChatGPTはどのようなシチュエーションで使えるか 活用シーンと正しい答えが出やすくなる命令のやり方を解説
                                            • 日本語/英語両方で世界トップクラス性能の大規模言語モデル。商用利用可

                                                日本語/英語両方で世界トップクラス性能の大規模言語モデル。商用利用可
                                              • 大規模モデルを単一GPUで効率的に学習する方法|npaka

                                                以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。 ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ

                                                  大規模モデルを単一GPUで効率的に学習する方法|npaka
                                                • からあげさんってすごいなあポエム(松尾研LLMコミュニティ初心者セミナー)

                                                  はじめに 今回始めて松尾研LLMコミュニティの初心者向け講座"Begginning LLM"の第一回に参加しました! 1~2ヶ月に1回ほど開催される連続講座のようでChatGPTで遊んだことあるけど本格的にLLMのこと知りたい!けど何からはじめていいのか分からないという人にぴったりの講座だと感じました。 この講座内容のすべては以下のYoutubeで公開されています。 今回のセミナーの中では松尾研所属のからあげさんが2つのユニットのセミナーを行っていました。 この記事ではからあげさんから学んだことを思ったままに書いていきます。 からあげさんはここがすごいぞ みなさんからあげさんのセミナーがとても気になって受講された方が多いんじゃないかな?と思いました。 もちろん、わたしも松尾研LLMでのからあげさんのご活躍が見たくて申し込みました!!! 約100枚の圧倒的スライド数 まず、すごいボリュームの

                                                    からあげさんってすごいなあポエム(松尾研LLMコミュニティ初心者セミナー)
                                                  • PyTorchやTensorFlow互換のAI処理高速化プラットフォーム「MAX」プレビュー公開、Pythonを高速化した「Mojo」搭載

                                                    Modular社がAI処理を高速化するプラットフォーム「MAX」をプレビュー公開。PyTorchやTensorFlow、ONNXなどのAIモデルと入れ替えるだけで処理が最大5倍高速になる。 Pythonの高速なスーパーセット「Mojo」言語を発表したことで話題となったModular社が、AI処理を高速化するプラットフォーム「MAX」(Modular Accelerated Xecution)のデベロッパーエディションをブレビュー公開しました。 MAX Developer Edition Preview has officially launched! It's a drop-in replacement for running and serving @PyTorch, @tensorflow and @onnxai models much faster and leverages the

                                                      PyTorchやTensorFlow互換のAI処理高速化プラットフォーム「MAX」プレビュー公開、Pythonを高速化した「Mojo」搭載
                                                    • Stable-Diffusionの学習設定まとめ|gcem156

                                                      なんか学習設定について、よく分からんけどデフォルト!とかよく分からんけどこうしてみたらうまくいった!みたいな感覚で議論されていることが多い気がするので、学習設定についてまとめてみようと思います。機械学習のこと知らん人にも分かるようにするはずの記事でしたが多分そうなってないです。間違いもあると思いますが、私の記事が間違っていたとしても、悪いのは私よりも頭がいい人が分かりやすい説明をしないせいであって私のせいではありません。 機械学習の簡単な説明機械学習が分からない人にも!と思って難しい用語を避けようとしてみましたが、誤差逆伝搬のことをフィードバックって言いかえたところで分かりやすくなっているのでしょうか? 機械学習はモデルの数値を学習データに合うように少しずつ調整していく作業です。なぜ少しずつかというと、機械学習では改善する方向はなんとなくわかるけど、最適な数値の位置は分からないからです。位

                                                        Stable-Diffusionの学習設定まとめ|gcem156
                                                      • TFRecordとWebDatasetを使った分散並列学習とパフォーマンス調査

                                                        はじめに Turing株式会社の自動運転MLチームでエンジニアをしている越智 (@chizu_potato)と塩塚 (@shiboutyoshoku) です。 Turingが目指す自動運転は、大量のデータで学習された非常に賢い機械学習モデルを活用することです。そのために、走行パートナーの方たちと協力して創業時からこれまで大量の走行データを取得してきました。走行データは車両に取り付けられた複数カメラによる360度をカバーした動画と、そのときの速度やGPSなどの走行ログを含んでいます。データサイズは80TBを超え、時間換算で3500時間程度です。 これだけのデータサイズでモデルを学習するためには、1枚のGPUだけで頑張るには限界があり複数のGPU (multi-GPU) による分散並列学習が必要となってきます。しかし、ただ分散並列学習を行うだけではmulti-GPUに対し、データの入出力 (I

                                                          TFRecordとWebDatasetを使った分散並列学習とパフォーマンス調査
                                                        • AIイラストのLoRA学習におすすめなグラボを検証【Stable Diffusion】 | ちもろぐ

                                                          無料で使えるAIイラスト「Stable Diffusion」で、推しのキャラクターや癖に刺さるシチュエーションを狙って生成するには「LoRA」の作成が必要です。 LoRA作成は「学習」と呼ばれ、イラストの生成よりもVRAMの使用量が増えます。必要なVRAMが増えるとLoRA作成に適したグラフィックボードはハイエンドに偏りそうですが、実際はどうなのか?

                                                            AIイラストのLoRA学習におすすめなグラボを検証【Stable Diffusion】 | ちもろぐ
                                                          • 継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development

                                                            この記事は、金融チームエンジニアの今城(@imos)と金融チームリサーチャーの平野(@_mhirano)による寄稿です。 概要 本稿では、ドメインに特化したLLMの構築の一環として、金融ドメイン特化のLLMの構築の検証を行いました。継続事前学習によるドメイン知識の獲得を模索し、特定のドメイン向けに専用のパラメータ数が多い高性能なLLMを提供を可能にすることを目指します。 実験では、nekomata-14bとPFNで構築した金融に特化したデータセットを用いて、継続事前学習を実施しました。 継続事前学習の結果として、金融ベンチマーク性能が向上することが確認できました。 出力の差としては、Instruction Tuningを施していないため、大きな差は見られないものの、一定の差が見られるケースもありました。 継続事前学習後のモデルは、https://huggingface.co/pfnet/n

                                                              継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development
                                                            • Video generation models as world simulators

                                                              We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Ou

                                                                Video generation models as world simulators
                                                              • PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる

                                                                AIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。 GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA https://github.com/karpathy/llm.c 作者のアンドレイ・カルパシー氏はOpenAIの創設グループの一員で、テスラのAIディレクターだった事もある人物です。 llm.cを使用することで、245MBの容量を持つPyTorchや107MBの容量を持つcPythonを使用せずに大規模言語モデル

                                                                  PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされる
                                                                • 既存日本語LLMをBitNetで置き換えて実行してみた|はち

                                                                  はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。 簡単な概要としては、 既存のLLMが1パラメータをFP16やBF16などのfloat型で扱っているものを、1パラメータで{-1, 0, 1}しか扱わない様にした。 計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結果となった。(量子化手法としては初) ということだと思います。 これは元々、今回の論文と同チームによって提案された"BitNet: Scaling 1-bit Transformers for Large Language Models"という論文を拡張したものです。この時は1パラメータで{-1, 1}として扱ってけれど、{-1, 0, 1}としたらうまくいったというのが今回の"The Era of 1

                                                                    既存日本語LLMをBitNetで置き換えて実行してみた|はち
                                                                  • AIの仕組みや開発手法についてイラスト付きで分かりやすく解説するAmazonの無料教材「MLU-Explain」

                                                                    AIの研究開発は急速に進んでおり、「そろそろAIについて勉強しないとな」と考えている人も多いはず。Amazonが無料公開している教材「MLU-Explain」ではニューラルネットワークの基礎が分かりやすいイラストやアニメーション付きで解説されています。 MLU-Explain https://mlu-explain.github.io/ MLU-Explainは機械学習の重要な概念をイメージ画像やアニメーションを使って分かりやすく解説する教材で、「ニューラルネットワークの基礎」「機械学習モデルからバイアスを取り除く方法」「ロジスティクス回帰の基礎」「線形回帰の基礎」などを学べます。 例えば、ニューラルネットワークの解説ページは「ニューラルネットワークは、『ニューロン』と呼ばれる相互接続された計算ノードが層状に積み重なって構成されるネットワークである」という基本的な概念の説明で始まり、ニュー

                                                                      AIの仕組みや開発手法についてイラスト付きで分かりやすく解説するAmazonの無料教材「MLU-Explain」
                                                                    • Scaled Dot-Product Attentionの本当の凄さを考える

                                                                      近年、機械学習分野で大きな成果をあげているTransformer[1]において、その中核をなすScaled Dot-Product Attention[1]には、革新的な仕組みが備わっています。その仕組みとは、後で詳しく説明しますが、入力に応じて重みを動的に変えることが可能なニューラルネットワークで、これにより驚くほど広範囲で膨大な情報に対する適応性と表現力を実現することができます。本記事では、Scaled Dot-Product Attentionのこの仕組みとその利点について解説し、私なりの解釈を紹介できればと思います。 先に結論を簡単に まず、結論から説明すると、Scaled Dot-Product Attentionは、入力に基づいて重みを変えることが可能なニューラルネットワークという解釈が可能です。ただし、Scaled Dot-Product Attentionは学習パラメータを

                                                                        Scaled Dot-Product Attentionの本当の凄さを考える
                                                                      • 第278回 「AIがRISC-Vを設計」というニュースを読んで、はや失業(!?)かと思ったら……

                                                                        第278回 「AIがRISC-Vを設計」というニュースを読んで、はや失業(!?)かと思ったら……:頭脳放談 中国の研究チームが、人工知能(AI)ソフトウェアで「RISC-V」のCPUを自動設計したという。「何でもAI」という最近の風潮が、CPUの設計にまでと思い、論文を読んだところ、当初思っていたのとかなり違っていた。その違和感について勝手な意見を述べさせていただく。 中国の研究チーム(中国科学院/中国科学院大学のShuyao Cheng氏などを中心としたチーム)が、人工知能(AI)ソフトウェアで「RISC-V」のCPUを自動設計したという論文が話題になっていた(論文は、「Pushing the Limits of Machine Design: Automated CPU Design with AI[PDF]」)。何でもかんでも「AI」といえばもてはやす風潮は収まっていない。 今度は、

                                                                          第278回 「AIがRISC-Vを設計」というニュースを読んで、はや失業(!?)かと思ったら……
                                                                        • 拡散モデルチュートリアル_for_public.pdf

                                                                          ログイン読み込んでいます…

                                                                          • 最小二乗法の話

                                                                            はじめに 最小二乗法はデータ解析の基本ですが、意外にその内容の理解が難しかったりします。特に、入力データと出力データの積の和が出てくる理由があいまいな人も多いんじゃないでしょうか。以下では、最小二乗法の公式の意味をちょっと考えてみたいと思います。 最小二乗法 何か実験をして、観測値を得ることを考えます。例えば抵抗値のわからないものに、様々な電圧をかけて、流れる電流を測ったとしましょう。 この時、入力電圧をx、出力電流をyとすると y = a x という比例関係が期待されます。この比例定数aを実験から精度よく求めたい時、どうすればよいでしょうか? 実験をN回繰り返すことにして、i番目の実験の入力電圧x_iに対し、出力電流y_iを得たとしましょう。このデータセット(x_i, y_i)を使って、最もよくaを推定したい、というのが本稿の目的です。 ここで考えなくてはいけないのが「最も良くaを推定す

                                                                              最小二乗法の話
                                                                            • 「マジでやばい」ChatGPTでプログラムが実行できる“コードインタープリター“ - 週刊アスキー

                                                                              OpenAIは2023年7月7日(現地時間)、ChatGPTの追加機能「Code Interpreter(コードインタープリター)」機能を、有償サブスクリプションプラン「ChatGPT Plus」ユーザーに向けベータ版として公開した。 同機能は、3月23日のプラグイン機能公開のタイミングで、一部ユーザーのみに向けてアルファ版として公開していたが、今回すべてのサブスクリプション登録ユーザーが利用可能になった。 ファイルのアップロードも可能 Code Interpreterを有効にすると、ChatGPT内にサンドボックス化された実行環境で動作するPythonインタープリターおよび一時的なディスク領域を利用できるようになる。 例えば、ユーザーが自然言語で問題を入力すると、Code Interpreterはそれを理解し適切なコードをインタープリターを使って生成する。また、既存のデータを読み込ませ視

                                                                                「マジでやばい」ChatGPTでプログラムが実行できる“コードインタープリター“ - 週刊アスキー
                                                                              • 機械学習モデルの再学習でLoRAよりもより少ない計算コストと時間でより高いパフォーマンスを期待できる「DoRA」

                                                                                大規模言語モデルや画像生成AIなどの機械学習モデルでは、ファインチューニングやLoRA(Low Rank Adaptation)といった手法によって、モデルの重みを微調整し、特定のタスクや目的に沿った出力を行うようにカスタマイズすることができます。香港科技大学の研究チームが、LoRAよりも計算コストと時間を削減できる新たな手法「DoRA(Weight-Decomposed Low-Rank Adaptation)」を発表しました。 [2402.09353] DoRA: Weight-Decomposed Low-Rank Adaptation https://arxiv.org/abs/2402.09353 Improving LoRA: Implementing Weight-Decomposed Low-Rank Adaptation (DoRA) from Scratch https

                                                                                  機械学習モデルの再学習でLoRAよりもより少ない計算コストと時間でより高いパフォーマンスを期待できる「DoRA」
                                                                                • 世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~ | ニュースリリース | NTT

                                                                                  ◆深層学習において、過去の学習過程をモデル間で再利用する全く新たな仕組みとして「学習転移」技術を実現しました。 ◆本技術は、深層学習におけるパラメータ空間の高い対称性を活用し、実際に学習することなく低コストな変換により数秒~数分程度で一定の精度を実現できるため、モデルの再学習コストを抜本的に削減できることを示しました。 ◆これにより、NTTが研究開発を進める大規模言語モデル(LLM)「tsuzumi(*1)」をはじめとした多様な基盤モデル(*2)の運用コスト削減・消費電力の削減や、多数のAIで議論することで多様な解の創出をめざしたAIコンステレーション(*3)の構想具現化など、次世代のAI技術開発に貢献します。 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、深層学習において過去の学習過程をモデル間で再利用する全く新たな仕組みとして「学習転移」技術

                                                                                    世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~ | ニュースリリース | NTT