並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 1839件

新着順 人気順

ディープラーニングの検索結果121 - 160 件 / 1839件

  • 生成AIのパラメータを98%削減するアルゴリズム 中部大が開発 自動運転車や工作ロボットへの搭載目指す | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

      生成AIのパラメータを98%削減するアルゴリズム 中部大が開発 自動運転車や工作ロボットへの搭載目指す | Ledge.ai
    • 【AI論文解説】RetNet: Transformerの後継!効率の良いLLM向けアーキテクチャ

      【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト: https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、以下の論文について紹介いたします。 【紹介論文】 ・Retentive Network: A Successor to Transformer for Large Language Models  【論文リンク】https://arxiv.org/pdf/2307.08621.pdf こちらの論文では、Transformerの計算量の問題を解決するための効率の良い系列モデルを提案しています。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libr

        【AI論文解説】RetNet: Transformerの後継!効率の良いLLM向けアーキテクチャ
      • AWSジャパン、生成系AI関連のアップデートなど「AWS Summit New York 2023」の発表内容について説明

          AWSジャパン、生成系AI関連のアップデートなど「AWS Summit New York 2023」の発表内容について説明
        • 自社のデータで生成AIを強化すべし:ファインチューニングしてビジネスに活用させたい基盤モデル(その1) | NTTデータ先端技術株式会社

          最近、クラウドサービスプロバイダ各社が言語系の基盤モデルとそのファインチューニング機能を提供し始めました。企業が生成AIをビジネスに本格的に活用させたいと思うならば、自社がもつデータセットで基盤モデルをファインチューニングする必要があるからです。 AIは、他の技術が成長する上で不可欠な基盤的な技術であり、ビジネスや社会の進化を後押ししています。最近、世間を賑わせているAIと言えば、生成AIでしょう。その中でもここ数ヶ月、メディアで数多く取り上げられて一躍注目を浴び、ビジネス現場を賑わせ続けているのが、OpenAIが開発したChatGPTです。ChatGPTは、GPT-3.5 Turboという大規模言語モデルを用いたAIチャットサービスです。(ただし、ChatGPTを大規模言語モデルと呼ぶ場合もあります。)GPT-3.5 Turboは、GPT-3.5という基盤モデルを人間のような自然な会話が

            自社のデータで生成AIを強化すべし:ファインチューニングしてビジネスに活用させたい基盤モデル(その1) | NTTデータ先端技術株式会社
          • 「ディープラーニングにおける速度限界」の論文を読む

            Speed Limits for Deep Learning という論文でニューラルネットの学習過程における熱力学的速度限界の研究がされています。 先を越されてしまった感があるので紹介します。本文10ページくらいで解析式とテストデータでの興味深い結果が書かれています。 熱力学的速度限界とは非平衡な物理系において分布の変化の大きさL、エントロピー生成\sigmaに対して変化に要した時間\tauが \tau \geq \frac{L^2}{2\Lambda \sigma} というような形で制限される法則です。 詳しくは ここでは機械学習の過程でパラメーター\theta_tが時間tに対して d\theta_t=\eta\nabla_\theta V(\theta;D)dt+\sqrt{1\eta\beta^{-1}}dB_t (Dは学習データ\etaは学習率)と変化するような状況を考え、 論文で

              「ディープラーニングにおける速度限界」の論文を読む
            • TFRecordとWebDatasetを使った分散並列学習とパフォーマンス調査

              はじめに Turing株式会社の自動運転MLチームでエンジニアをしている越智 (@chizu_potato)と塩塚 (@shiboutyoshoku) です。 Turingが目指す自動運転は、大量のデータで学習された非常に賢い機械学習モデルを活用することです。そのために、走行パートナーの方たちと協力して創業時からこれまで大量の走行データを取得してきました。走行データは車両に取り付けられた複数カメラによる360度をカバーした動画と、そのときの速度やGPSなどの走行ログを含んでいます。データサイズは80TBを超え、時間換算で3500時間程度です。 これだけのデータサイズでモデルを学習するためには、1枚のGPUだけで頑張るには限界があり複数のGPU (multi-GPU) による分散並列学習が必要となってきます。しかし、ただ分散並列学習を行うだけではmulti-GPUに対し、データの入出力 (I

                TFRecordとWebDatasetを使った分散並列学習とパフォーマンス調査
              • Zero-shot Learning(ゼロショット学習)とは?

                用語「ゼロショット学習」について説明。訓練データに存在しない新しいクラスやタスクに対しても有用な予測/分類を行うための学習方法のことで、特にChatGPTの言語モデルなどでは、ファインチューニングすることなく、かつ例文もない状態で、さまざまなタスクを解決する能力を持つことを指す。 連載目次 用語解説 人工知能/機械学習分野のゼロショット学習(Zero-shot Learning)とは、新しいクラス(分類問題の場合)やタスクを訓練データから事前に学習していなくても、推論時にその未知のクラスやタスクについての何らかの補助情報(説明テキストや属性情報、クラス間の類似性など)を訓練済みAIモデルに与えることで、柔軟に適切な分類や予測を行うための学習方法のことである。例えば動物を分類するタスクにおいて、事前に「犬」と「猫」(という2つの既知のクラス)の訓練データから学習したAIモデルに、未知の動物に

                  Zero-shot Learning(ゼロショット学習)とは?
                • NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ

                  先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。 これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ、「reasonableな」努力で再現できたのはわずかに7個に過ぎず、その中でも1個は論文中で主張されたベースラインを超えることは出来なかったと報告しています。 ただ、この報告はNN研究における再現性に関する議論のあくまでも一例であり、実際コロナ禍以前から「論文中ではSOTAを達成と書いているのに同じ実装をどう組んでもSOTAに達しない」みたいな業界噂話はそこかしこで耳にしたものでした。しかしながら、実際のソフトウェアやアプリケーションとしてそれらのNN手法が用いられて、尚且つその結果として何かしらの不具合でも起きない限りは、機械学習業界の

                    NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ
                  • 生成 AI に必要な「基盤モデル」のメモリ使用量 98%削減につながる技術を開発 ─ 自動運転車や工作用ロボット用組み込みシステムへの搭載を目指す ─

                    • 第278回 「AIがRISC-Vを設計」というニュースを読んで、はや失業(!?)かと思ったら……

                      第278回 「AIがRISC-Vを設計」というニュースを読んで、はや失業(!?)かと思ったら……:頭脳放談 中国の研究チームが、人工知能(AI)ソフトウェアで「RISC-V」のCPUを自動設計したという。「何でもAI」という最近の風潮が、CPUの設計にまでと思い、論文を読んだところ、当初思っていたのとかなり違っていた。その違和感について勝手な意見を述べさせていただく。 中国の研究チーム(中国科学院/中国科学院大学のShuyao Cheng氏などを中心としたチーム)が、人工知能(AI)ソフトウェアで「RISC-V」のCPUを自動設計したという論文が話題になっていた(論文は、「Pushing the Limits of Machine Design: Automated CPU Design with AI[PDF]」)。何でもかんでも「AI」といえばもてはやす風潮は収まっていない。 今度は、

                        第278回 「AIがRISC-Vを設計」というニュースを読んで、はや失業(!?)かと思ったら……
                      • 深層学習のための分散キャッシュシステム - Preferred Networks Research & Development

                        エンジニアの上野です。Cluster Servicesチームという、PFNのKubernetesベースの機械学習基盤を開発・運用するチームに所属して、基盤の改善や新機能の開発に務めています。本記事では、深層学習における学習データセット読み込み速度の改善を目指して開発し、現在もKubernetes上で運用中の分散キャッシュシステムを紹介します。 PFNの機械学習基盤については、ブログ「2022年のPFNの機械学習基盤」もご参照ください。 深層学習における学習データセット読み込み 深層学習を高速化するため、深層学習に向いたアクセラレータの開発が日々続けられています。PFNで開発しているMN-Coreシリーズや、NVIDIA社製GPUもそのひとつです。これらのアクセラレータは高速に行列演算を行うことができ、深層学習の1イテレーションにかかる時間を高速化、ひいては深層学習を活用する研究開発全体を加

                          深層学習のための分散キャッシュシステム - Preferred Networks Research & Development
                        • 機械学習におけるクラスの重み付けとその実装方法 - Qiita

                          機械学習におけるクラスの重み付け 機械学習において、データセットのクラス分布が不均衡な場合には、重み付けの考え方を導入することが多いです。これは特に、一部のクラスのデータ数が他のクラスと比べて非常に少ない場合(不均衡なデータセット)に有効です。この記事では、クラスの重み付けについて説明し、その実装方法をKerasとAdaBoostで解説します。 クラスの重み付けとは? クラスの重み付け(Class weighting)は、不均衡なクラス分布を持つデータセットに対する学習において、少数派のクラスを適切に扱うためのテクニックです。具体的には、クラスの重み付けは分類器に対して、少数派のクラスのデータに対する学習により重要な重みを置くよう指示します。これにより、少数派のクラスのデータがモデル学習において大きな影響を持つようになり、全体のパフォーマンスが向上することが期待できます。 Kerasでの実

                            機械学習におけるクラスの重み付けとその実装方法 - Qiita
                          • これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z

                            導入 本当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。 その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。 これは本当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。 まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日本語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。 ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。 たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。 言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

                              これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z
                            • 最小二乗法の話

                              はじめに 最小二乗法はデータ解析の基本ですが、意外にその内容の理解が難しかったりします。特に、入力データと出力データの積の和が出てくる理由があいまいな人も多いんじゃないでしょうか。以下では、最小二乗法の公式の意味をちょっと考えてみたいと思います。 最小二乗法 何か実験をして、観測値を得ることを考えます。例えば抵抗値のわからないものに、様々な電圧をかけて、流れる電流を測ったとしましょう。 この時、入力電圧をx、出力電流をyとすると y = a x という比例関係が期待されます。この比例定数aを実験から精度よく求めたい時、どうすればよいでしょうか? 実験をN回繰り返すことにして、i番目の実験の入力電圧x_iに対し、出力電流y_iを得たとしましょう。このデータセット(x_i, y_i)を使って、最もよくaを推定したい、というのが本稿の目的です。 ここで考えなくてはいけないのが「最も良くaを推定す

                                最小二乗法の話
                              • 「マジでやばい」ChatGPTでプログラムが実行できる“コードインタープリター“ - 週刊アスキー

                                OpenAIは2023年7月7日(現地時間)、ChatGPTの追加機能「Code Interpreter(コードインタープリター)」機能を、有償サブスクリプションプラン「ChatGPT Plus」ユーザーに向けベータ版として公開した。 同機能は、3月23日のプラグイン機能公開のタイミングで、一部ユーザーのみに向けてアルファ版として公開していたが、今回すべてのサブスクリプション登録ユーザーが利用可能になった。 ファイルのアップロードも可能 Code Interpreterを有効にすると、ChatGPT内にサンドボックス化された実行環境で動作するPythonインタープリターおよび一時的なディスク領域を利用できるようになる。 例えば、ユーザーが自然言語で問題を入力すると、Code Interpreterはそれを理解し適切なコードをインタープリターを使って生成する。また、既存のデータを読み込ませ視

                                  「マジでやばい」ChatGPTでプログラムが実行できる“コードインタープリター“ - 週刊アスキー
                                • AI研究者、東大教授・松尾豊が語る「生成AI」が教育業界に与えるインパクト | 東洋経済education×ICT

                                  「先生が教えやすくなる」など、多様なツールの可能性 ――現在、第3次AIブームといわれていますが、話題のChatGPTはこれまでのAIと何が違うのでしょうか。 今回の第3次AIブームの源泉はディープラーニングです。顔認証や画像診断といった画像認識を中心に世の中に活用が広がりましたが、ChatGPTは言語を扱う技術ということで、今まで以上に影響範囲が広いといえます。 インターネットをはじめスマートフォンや自動車など、これまでの歴史で見てきたように、新しい技術が生まれてから使えるサービスとして一般に行き渡るまでには、相応の時間がかかるでしょう。しかし、確実に生成AIは世の中に浸透していくと考えています。 ――文部科学省が2023年7月4日に「初等中等教育段階における生成 AI の利用に関する暫定的なガイドライン」を公表しましたが、活用に抵抗感を持つ教員もいそうです。 最初は抵抗感を持つ人がいる

                                    AI研究者、東大教授・松尾豊が語る「生成AI」が教育業界に与えるインパクト | 東洋経済education×ICT
                                  • 従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか?

                                    ChatGPTやBardなど、2023年7月時点で商用利用されている大規模言語モデルはほとんど全てがトランスフォーマーというアーキテクチャを利用したモデルですが、トランスフォーマー型のモデルは入力の長さの2乗に比例して計算量が増加するため、入力サイズが制限されてしまう問題があります。そうした問題に応えて、大きいデータへの対応や推論時のメモリ使用量の削減を達成しつつトランスフォーマー型に匹敵する性能を出せるアーキテクチャ「RWKV」について、著者の一人がブログで解説しています。 The RWKV language model: An RNN with the advantages of a transformer | The Good Minima https://johanwind.github.io/2023/03/23/rwkv_overview.html How the RWKV l

                                      従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか?
                                    • PyTorchコーディング時の実装負担を低減させるテンプレートコード - Qiita

                                      はじめに 機械学習コードに用いられるPyTorchコーディング時の実装負担低減を目的として、テンプレートコードを作成してみました。本記事では具体的な使用方法を記載します。(テンプレートコード部分の実装は文献1を参考にさせていただきました) ソースコード 下記リンクからアクセス可能です。 テンプレートコードはframeworkディレクトリに、ユーザー実装部分はusrディレクトリに、それぞれ格納されています。 使用方法 本テンプレートコードを使用することにより、自作のデータセットおよびモデル(+損失関数等)を用意するだけで、簡単にモデルの学習やテストができるようになります。ここでは、具体的な使用方法について説明します。 1. データセットの構築 初めに、データセットを読み込むためのクラスを作成します。データセットはユーザー定義であることから、データ形状等に制約はありません。一方で、後述するデー

                                        PyTorchコーディング時の実装負担を低減させるテンプレートコード - Qiita
                                      • 大規模言語モデルの「創発的」能力(Emergent Abilities of Large Language Models)とは?

                                        大規模言語モデルの「創発的」能力(Emergent Abilities of Large Language Models)とは?:AI・機械学習の用語辞典 用語「創発」について説明。大規模言語モデルの計算量やパラメーター数が非常に大きくなると、“あるところ”を境に、突然、新しい能力を獲得して性能が大きく向上する現象を指す。 連載目次 用語解説 大規模言語モデルにおける創発的能力(Emergent Abilities of Large Language Models、あるいは単に「創発」)とは、大規模言語モデルの計算(Compute)量(もしくはパラメーター数=モデルのサイズ)が非常に大きくなると、“あるところ”を境に、突然、(新しい能力を獲得して)性能が大きく向上する現象のことである(図1)。なお創発的能力は、元の論文で以下のように定義されている。 ある能力が、より小さなモデルには存在しな

                                          大規模言語モデルの「創発的」能力(Emergent Abilities of Large Language Models)とは?
                                        • ありがとうディープラーニングおじさん - karaage. [からあげ]

                                          最初に その後のディープラーニングおじさんの話です。シンデレラの続きみたいなものなので、読まないほうが夢を壊さないかもしれませんということだけ、ここで注意喚起いたします。 この記事、ずっと下書きに入ったまま公開しようか迷っていたのですが、ディープラーニングおじさんのご家族にもご了承いただき、公開することにしました。そこまで拡散は希望していないのですが、特に制限するつもりはありません(できません)。 ディープラーニングおじさんとの出会い振り返り ディープラーニングおじさん(以下Dおじさん)とは、今だに私のブログでトップのPV数を誇る記事の主役です。 上記記事ではあっさり書いていますので、もうちょっと解像度高く思い出しながら振り返ってみたいと思います。 そもそもの出会いは、社内で異動した後、たまたま隣の課にDおじさんがいたことからはじまります。Dおじさんは、私より一回り以上上の年齢(50代後半

                                            ありがとうディープラーニングおじさん - karaage. [からあげ]
                                          • 「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表

                                            「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。 英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。 英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。 これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを

                                              「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
                                            • Poetry1.5.1からGPU版のPytorchのインストールが簡単になりました

                                              結論 GPU版PytorchのようなPyPIに存在しないパッケージにおいて、Poetry1.5.1からインストールがより簡単になりました🎉 例えば自分の環境では下記の2行でインストールできます。 poetry source add torch_cu118 --priority=explicit https://download.pytorch.org/whl/cu118 poetry add torch torchvision torchaudio --source torch_cu118

                                                Poetry1.5.1からGPU版のPytorchのインストールが簡単になりました
                                              • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

                                                (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

                                                  エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
                                                • Stable Diffusion から特定の概念を忘れさせる学習を行ってみる

                                                  TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよ マイナス適用によって、概念を削除するだけでなく強調することもできたよ 一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。 論文とかどうでもいいから学習方法知りたい! という方は 実際に学習してみる へどうぞ! 今回作成したもの コード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。 本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の

                                                    Stable Diffusion から特定の概念を忘れさせる学習を行ってみる
                                                  • 「一般人おじさんでも初音ミクになって踊れる可能性と未来がある」の動画が凄い技術なんだけど男に戻る瞬間がサブリミナル

                                                    バーチャル美少女おじさん珍味 @hanageshinnkenn 美少女になりたいおじさん。ダンスとアニメが好きです。noteには二次元美少女になる方法やAIについて書いてます。 最後のゴーヤ祭 / 思春期テロリスト https://t.co/egEMyRn6Yc

                                                      「一般人おじさんでも初音ミクになって踊れる可能性と未来がある」の動画が凄い技術なんだけど男に戻る瞬間がサブリミナル
                                                    • 「顔を右に」「口を開く」など画像の動かしたい部分をAIがいい感じに修正してくれるツール「DragGAN」のソースコード&デモが公開される

                                                      AIを使って画像を生成する時、「ちょっとだけ修正を加えたい」と思うことは多いもの。そんな人たちの夢をかなえるツールが「DragGAN」です。DragGANは画像の中で動かしたいポイントを指示するだけでAIが自動で修正してくれるというもので、2023年5月に論文だけが提出されていましたが、2023年6月22日にソースコードが公開され、同時にデモも登場しました。 GitHub - XingangPan/DragGAN: Official Code for DragGAN (SIGGRAPH 2023) https://github.com/XingangPan/DragGAN Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold https://vcai.mpi-inf.mpg.

                                                        「顔を右に」「口を開く」など画像の動かしたい部分をAIがいい感じに修正してくれるツール「DragGAN」のソースコード&デモが公開される
                                                      • 大規模モデルを支える分散並列学習のしくみ Part1

                                                        はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 自然言語処理分野における大規模深層学習の重要性は日に日に高まっていますが、GPT-3, GPT-4 などのモデルの学習には膨大な計算コストがかかり、容易に学習できなくなっています。実際、モデルサイズが近年急速に大きくなっていることにより、学習に必要な計算量(FLOPs)は以下のように年々膨大になっています。近年の大規模モデルでは、NVIDIA H100 80GB であっても 1 つの GPU では、モデルをのせることすらできません。 Compute Trends Across Three Eras of Machine Learning より またScaling Laws によると、大規模なモデルは小さいモデルと比較してより優れた性能を発揮するため、自動

                                                          大規模モデルを支える分散並列学習のしくみ Part1
                                                        • 20230614_「ChatGPTについて調べてくれ」と社長から特命を受けた人のためのChatGPT概論(40min版)

                                                          https://forest.f2ff.jp/introduction/7866?project_id=20230601

                                                            20230614_「ChatGPTについて調べてくれ」と社長から特命を受けた人のためのChatGPT概論(40min版)
                                                          • A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks

                                                            Transformer is a deep neural network that employs a self-attention mechanism to comprehend the contextual relationships within sequential data. Unlike conventional neural networks or updated versions of Recurrent Neural Networks (RNNs) such as Long Short-Term Memory (LSTM), transformer models excel in handling long dependencies between input sequence elements and enable parallel processing. As a r

                                                            • The first AI model based on Yann LeCun’s vision for more human-like AI

                                                              Our work on I-JEPA (and Joint Embedding Predictive Architecture (JEPA) models more generally) is grounded in the fact that humans learn an enormous amount of background knowledge about the world just by passively observing it. It has been hypothesized that this common sense information is key to enable intelligent behavior such as sample-efficient acquisition of new concepts, grounding, and planni

                                                                The first AI model based on Yann LeCun’s vision for more human-like AI
                                                              • Rust でレイトレーシングレンダラーをディープラーニングしてみた

                                                                何が何だかわからないタイトルですが、次のような3Dのレンダラーをディープラーニングで模倣してみようということです。左側が訓練データ、右側がディープラーニングした結果でレンダリングしたものです。 まず、私はディープラーニングの専門家ではありませんので、この記事は自分の学習過程を記録したものになります。 今回はディープラーニングというかニューラルネットワーク一般の理解を深めるため、全てをフルスクラッチで実装してみました。行列の掛け算から誤差逆伝搬法まで。このため学習過程を可視化するGUIを作りました。 これは全て CPU で動作するので速度は期待しないでください。 リポジトリはこちらです。 ブラウザ上で動作する WebAssembly 版もありますが、ファイルから画像をロードする機能はありませんし、ネイティブ版より遅いです。 ニューラルネットワークの基本 ニューラルネットワークおよびディープラ

                                                                  Rust でレイトレーシングレンダラーをディープラーニングしてみた
                                                                • Wolfram氏によるChatGPTの仕組みと機能に関する解説について|IT navi

                                                                  数式処理システムのMathematicaや質問応答システムのWolfram Alphaを開発したStephen Wolfram氏が「What Is ChatGPT Doing … and Why Does It Work?」(ChatGPTは何をしていて、なぜそれがうまく機能するのか?)と題するブログ記事を発表しました。 この記事は、とても分かりやすい言葉で、沢山例を挙げて詳しく説明していますので、ChatGPTの仕組みを理解したいと思っている人には必読の記事だと思います。 ブラウザの翻訳機能を利用して日本語で読むこともできますが、易しい言葉で書かれた文章であるにも関わらず、これを完全に理解するのは簡単なことではありません。 前半は大規模言語モデル、ニューラルネットワーク、Transformerなどの仕組みについて相当詳しく説明しており、後半はChatGPTに関するWolfram氏独自の解

                                                                    Wolfram氏によるChatGPTの仕組みと機能に関する解説について|IT navi
                                                                  • Scaled Dot-Product Attentionの本当の凄さを考える

                                                                    近年、機械学習分野で大きな成果をあげているTransformer[1]において、その中核をなすScaled Dot-Product Attention[1]には、革新的な仕組みが備わっています。その仕組みとは、後で詳しく説明しますが、入力に応じて重みを動的に変えることが可能なニューラルネットワークで、これにより驚くほど広範囲で膨大な情報に対する適応性と表現力を実現することができます。本記事では、Scaled Dot-Product Attentionのこの仕組みとその利点について解説し、私なりの解釈を紹介できればと思います。 先に結論を簡単に まず、結論から説明すると、Scaled Dot-Product Attentionは、入力に基づいて重みを変えることが可能なニューラルネットワークという解釈が可能です。ただし、Scaled Dot-Product Attentionは学習パラメータを

                                                                      Scaled Dot-Product Attentionの本当の凄さを考える
                                                                    • ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

                                                                      RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに

                                                                        ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
                                                                      • [NumPy超入門]Pythonでのデータ処理をNumPyから始めよう!

                                                                        連載目次 本シリーズと本連載について Pythonは現在とてもよく使われるプログラミング言語の一つです。特に人工知能、機械学習、データ処理やデータ分析といった分野においてはPythonとそのライブラリはとてももてはやされています。ですが、Pythonの基礎を学んだだけで今述べたような分野に乗り出していくのは少し大変なことでもあります。 プログラミング言語だけを覚えても、その言語で何かを行うには十分ではないことはよくあります。特に複雑なことをやろうと思ったら。何かを行うためには、さまざまなライブラリやフレームワークの使い方も学ぶ必要があります。あるいは、自分でそうしたライブラリやフレームワークを構築する方法もありますが、そのためにはかなりの労力が必要となるでしょう。 何かを実現するためにその道具(ライブラリやフレームワーク)から作り始めるのは理想的です。が、例えば数値計算やデータの処理、可視

                                                                          [NumPy超入門]Pythonでのデータ処理をNumPyから始めよう!
                                                                        • 【JDLA公式】Generative AI Test

                                                                          Generative AI Testで、 生成AI導入の推進者に 生成AIに関する知識を客観的に証明し、 自信とチャンスを手に入れませんか?

                                                                            【JDLA公式】Generative AI Test
                                                                          • The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

                                                                            Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclea

                                                                            • 高速な深層学習モデルアーキテクチャ2023

                                                                              深層学習モデル(畳み込みニューラルネットワーク; CNN、Vision Transformer; ViT)の高速化手法のまとめ より詳細な資料は下記 CNN: https://speakerdeck.com/yu4u/moteruakitekutiyaguan-dian-karanogao-su-hua-2019 Vision Transformer: https://speakerdeck.com/yu4u/jin-nian-nohierarchical-vision-transformer

                                                                                高速な深層学習モデルアーキテクチャ2023
                                                                              • IntelのMeteor Lake搭載ノート、dGPUなしでStable Diffusionを高速処理

                                                                                  IntelのMeteor Lake搭載ノート、dGPUなしでStable Diffusionを高速処理
                                                                                • Intelが次世代CPU「Meteor Lake」の概要をチラ見せ 全モデルに「AIエンジン」を搭載

                                                                                  Intelは5月29日(米国太平洋夏時間)、開発コード名「Meteor Lake(メテオレイク)」のCPUに関する新情報を公開した。このCPUは、次世代の電力管理機能の他、刷新された「Intel Xe Graphics」や新しい「AIエンジン(VPU)」を搭載することでパフォーマンスの向上と省電力化を両立するという。正式な発表は「2023年後半」を予定している。 →2025年までに「1.8nm相当」に――Intelが半導体生産のロードマップを説明 Meteor Lakeの概要 Meteor Lakeは現行の第13世代Coreプロセッサ(開発コード名:Raptor Lake)の後継で、順当に行けば「第14世代Coreプロセッサ」となる予定のCPUだ。既報の主な特徴は以下の通りである。 「Intel 4(7nmプロセス)」を適用して生産される初めての製品 複数の「タイル(ダイ)」を組み合わせて

                                                                                    Intelが次世代CPU「Meteor Lake」の概要をチラ見せ 全モデルに「AIエンジン」を搭載