並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 74件

新着順 人気順

Transformerの検索結果1 - 40 件 / 74件

  • 【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ

    第1回は、さまざまなタスクをこなす万能型ジェネレーティブAIツール「ChatGPT」の性能の鍵を握る「トークン長(GPTが文脈を意識できる過去の単語数)」やGPTの歴史的経緯について解説しました。第2回はGPTを支える自然言語処理 の分野で使用される深層学習モデル「Transformer」とその根幹となる「Attention機構(そのタスクにおいてどの単語の重要度が高く、注目すべきか決める仕組み)」についてです。TransformerとAttention機構の仕組みを定性的に把握し、それを踏まえてGPTの能力と可能性について考察したいと思います。テクノロジー領域に明るくない人でもわかる記事を目指します。

      【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ
    • GWに徹底理解!GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開 | Ledge.ai

      サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

        GWに徹底理解!GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開 | Ledge.ai
      • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

        昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

          驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
        • ChatGPTのコア技術「GPT」をざっくり理解する - Qiita

          ※本記事はOracleの下記Meetup「Oracle Big Data Jam Session」で実施予定の内容です。 ※セミナー実施済の動画に関しては以下をご参照ください。 本記事の対象者 これから機械学習を利用した開発をしていきたい方 機械学習のトレンド技術を知りたい方 なるべく初歩的な内容から学習したい方 はじめに Transformerの登場以降、著しい技術革新が続くここ数年、特にOpenAI社のChatGPTのサービス開始以降、おびただしい数の技術ブログや記事がインターネット上に存在する中、本記事に目を留めていただいてありがとうございます。 この勉強会では、専門用語や難解な公式を極力排除し、初学者の方々を対象に、「そもそも自然言語の機械学習ってどういうもの?」、「言語モデルって要するに何?」というところからGPTをざっくり理解することを目的としています。従って、本記事に記載のあ

            ChatGPTのコア技術「GPT」をざっくり理解する - Qiita
          • 【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita

            Transformer 深層学習モデル以前の言語モデルの課題 言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。(LLM資料p.8参照) ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。 ニューラル言語モデル しかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN(Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。(勾配消失&単語間の長距離依存性の把握が困難) RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし

              【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
            • 【AI動画生成】Sora 要素技術解説

              もう全部OpenAIでいいんじゃないかな はじめに 月間技術革新です。 ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。 圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。 在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成 論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。 原文を見たい方はこちらからどうぞ 全体構成 Soraは以下の技術要素で構成されているとのこと

                【AI動画生成】Sora 要素技術解説
              • ChatGPTなど数々の高性能AIを生み出した仕組み「Attention」についての丁寧な解説ムービーが公開される

                さまざまな数学的トピックをムービー形式で解説するサイト「3Blue1Brown」において、ChatGPTに代表されるAIを形作っている「Transformer」構造の心臓部「Attention(アテンション)」についての解説が行われています。 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning https://www.3blue1brown.com/lessons/attention AIの中身と言える大規模言語モデルのベースとなる仕事は「文章を読んで次に続く単語を予測する」というものです。 文章は「トークン」という単位に分解され、大規模言語モデルではこのトークン単位で処理を行います。実際には単語ごとに1トークンという訳ではありませんが、3Blue1Brownは単純化して

                  ChatGPTなど数々の高性能AIを生み出した仕組み「Attention」についての丁寧な解説ムービーが公開される
                • 225行のコードでGPTの仕組みを理解する

                  概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。 動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字(単語ではないことに注意)予測機を作成するというものです。 この動画で完成するコードは以下で、225行しかなくとても読みやすいです。 また短いですがtransformerのエッセンスが詰まっていて勉強になりそうです。 このコードを読み解くことでGPTやtransformerがどのように動いているのか、ざっくり理解してみようと思います。 ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo

                    225行のコードでGPTの仕組みを理解する
                  • 「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ

                    先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。 論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twitter.com/nUXb4bGiQ3— GO Inc. AI Tech (@goinc_ai_tech) 2023年9月28日 なるほど、NN全盛というかNN一択の時代にあっては時系列予測もNNでやるのが当たり前になったのだなという感想でした。大昔「沖本本」で古典的な計量時系列分析を一通り学んだ身としては隔世の感がありますが、これもまたNN時代の趨勢なのでしょう。 なお、元論文2点は上記リンクから辿

                      「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ
                    • Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表

                      LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット・HumanEvalでGPT-3.5を上回る成績を収めたことが報告されています。 [2306.11644] Textbooks Are All You Need https://doi.org/10.48550/arXiv.2306.11644 Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa https://analyticsindiama

                        Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表
                      • 速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)

                        2024-02-27にarXiv公開され,昨日(2024-02-28)あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「1ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。 論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c

                          速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)
                        • GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

                          この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版Twitter https://twitter.com/3B1BJP 元チャンネル(英語) https://www.youtube.com/c/3blue1brown 元動画(英語) https://youtu.be/wjZofJX0v4M?si=9YsuEzHATlhPtpOF Check out our new channel Ufolium https://www.youtube.com/watch?v=wrNCjIjIzuk&pp=ygUj5aSn57Wx6aCY6YG45oyZ44Gu5LuV57WE44G_IHVmb2xpdW0%3D Richard Turner's introduction

                            GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
                          • ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント

                            GoogleやAmazonが投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス

                              ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント
                            • 初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね

                              流行のLLMを勉強したくて沢山本を読みました。 この後もしばらくLLM(GPT)関係の出版が続きそうなので、現状の本でまとめてみました。 参考: nowokay.hatenablog.com まとめ。 Transformerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transformer入門 言語モデルをデータセットを作る所からやってみたい人には、作ってわかる! 自然言語処理AI とにかくすぐに動かしたい人には、機械学習エンジニアのためのTransformers ビジネス的に何ができるのかを知りたい人はBERT入門 Vision Transformer入門 Vison Transformerになっていますが、Transformerの説明がとても詳しくお勧めです。実際に写経してパーツパーツで動かせるのはこの本だけ。Transformer一点突破な

                                初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね
                              • ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog

                                こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 本記事の対象読者としては、以下のようになりま

                                  ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
                                • 統計数理シンポジウム 生成モデル 岡野原

                                  株式会社 Preferred Networks 岡野原 大輔 @hillbig 生成モデルは世界を どのように理解しているのか 「統計的機械学習」の中核としての 統計数理シンポジウム 2023/05/25 アジェンダ • 現在の代表的な生成モデル 大規模言語モデル/ 拡散モデル • 自己教師あり学習 / メタ学習 • 未解決問題 岩波書店 2023 一般向け 関連書籍 岩波書店 2023 専門家向け 技術評論社 2021 2022 ディープラーニングの基礎知識 日経BP 2022 個別の深い話題 生成モデル x ~ p(X | C) X: 生成対象 C: 条件 • 生成モデル:対象ドメインのデータを生成できるようなモデル – テキスト、画像、動画、化合物、行動列 等 – 条件を通じて、制約、指示、対象ドメインなどを指定する (条件付き生成モデルの方が学習の面でも使いやすさの面 でも有利であ

                                  • ChatGPTなどの対話型AIの基礎となっている「Attention」を可視化した「Attention Viz」

                                    ChatGPTやBing Chatの背景にある大規模言語モデルの多くは、Googleが開発したニューラルネットワークアーキテクチャーの「Transformer」を採用しています。このTransformerの鍵になるのが「Self-Attention」というシステムです。このSelf-Attentionを視覚化するためのツール「Attention Viz」を、ハーバード大学とGoogleの共同研究チームが発表しました。 AttentionViz Docs https://catherinesyeh.github.io/attn-docs/ Transformerがどういう仕組みのアーキテクチャなのかについては、以下の記事を読むとよくわかります。 ChatGPTにも使われる機械学習モデル「Transformer」が自然な文章を生成する仕組みとは? - GIGAZINE 自然言語処理をディープラ

                                      ChatGPTなどの対話型AIの基礎となっている「Attention」を可視化した「Attention Viz」
                                    • 大規模言語モデル

                                      2023年度統計関連学会連合大会チュートリアルセッション 言語モデルと自然言語処理のフロンティア

                                        大規模言語モデル
                                      • 【論文丁寧解説】BitNet b1.58とは一体何者なのか - Qiita

                                        はじめに この記事では、巷で「この技術によりGPUが不要になるかもしれない、NVIDIAなどの半導体関係の株価が...」と話題になっている、BitNet b1.58についての論文を丁寧に解説します。このMicrosoftが先日発表したBitNet b1.58はそのエネルギー効率の凄まじさから2024年初めの大きな技術改革となるかもしれません!! 筆者の見解 関する論文解説に入る前に、この技術に関する私の個人的な意見を述べたいと思います。 1bitの技術を用いることで達成されたその驚異的なエネルギー効率の高さは、既存の大規模言語モデル(LLM)とは一線を画しています。この技術が今後のAI技術の発展にどのように影響を与えるかについては以降の発表がとても楽しみです。 一方で、「GPUが不要になるかもしれない」という意見に関しては、ある程度の限定的な視点からの意見と言えます。BitNet b1.5

                                          【論文丁寧解説】BitNet b1.58とは一体何者なのか - Qiita
                                        • Metaが既存の生成AIにあるトークン制限をはるかに上回る100万トークン超のコンテンツ生成を可能にする次世代AIアーキテクチャ「Megabyte」を発表

                                          MetaのAI研究チームが、100万トークンを超えるテキストや画像、オーディオ形式などのコンテンツを生成できる可能性を持つ「Megabyte(メガバイト)」のアーキテクチャを提唱しました。GPT-4やBardなどのAIモデルの基盤となっているアーキテクチャは「Transformer」ですが、MegabyteをAIモデルに採用することで、より高度で熟練したAIモデルの開発が可能になるとMetaは主張しています。 [2305.07185] MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers https://doi.org/10.48550/arXiv.2305.07185 Meta AI Unleashes Megabyte, a Revolutionary Scalable Model Archit

                                            Metaが既存の生成AIにあるトークン制限をはるかに上回る100万トークン超のコンテンツ生成を可能にする次世代AIアーキテクチャ「Megabyte」を発表
                                          • ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog

                                            こちらは「ChatGPT の仕組みを理解する」の後編記事になります。 前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている InstructGPT を説明したいところなんですが、InstructGPT では強化学習の手法を使用しているので、後半記事では一旦自然言語から離れて強化学習の基礎から PPO までを説明し、最後にメインコンテンツである InstructGPT → ChatGPT を説明します。 強化学習の基礎事項 強化学習のモデル化 環境のマルコフ性とマルコフ決定過程(MDP) 価値関数 強化学習手法の分類 価値ベースの強化学習手法 方策ベースの強化学習手法と方策勾配法 アクター・クリティック手法 TRPO [Tr

                                              ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog
                                            • 「Transformer」後継と期待される「RetNet」活用 PKSHAが日英対応の独自LLMを開発 日本MSも協力

                                              AIベンチャー・PKSHA Technology(東京都文京区)は3月28日、「RetNet」技術を活用した日英大規模言語モデル(LLM)を開発したと発表した。RetNetを使用した日英モデルは世界初で、日本マイクロソフトの技術支援により実現。PKSHA Technologyの上野山勝也代表は「これによって生成AIの活用が一段前に進む」と自信を見せる。 左から、PKSHA Communication、PKSHA Workplaceの佐藤哲也代表、PKSHA Technologyの上野山勝也代表、日本マイクロソフト 執行役員 常務 最高技術責任者の野嵜弘倫さん、PKSHA Technology アルゴリズムエンジニア VPoEの森下賢志さん、PKSHA Technology アルゴリズムリードの稲原宗能さん 今回開発したLLMの最大の特徴であるRetNetとは「Retentive Netwo

                                                「Transformer」後継と期待される「RetNet」活用 PKSHAが日英対応の独自LLMを開発 日本MSも協力
                                              • 大規模言語モデルの中身を覗いてみよう / look inside Large Language Models

                                                GMOペパボの新卒エンジニア向け機械学習研修2023における座学の資料です。 機械学習について教師あり学習の考え方は知っている、ぐらいの方を対象に、大規模言語モデル(Large Language Model: LLM)がどのようにテキストを出力して、どのように学習しているかなど解説しています。 (LLMの個々のモデルの詳細やLLMのライブラリなどは対象外です) 研修では、この他にも機械学習自体の初学者向けの座学など、さまざまなコンテンツを実施しました。詳細は以下のブログをご覧ください。 https://rand.pepabo.com/article/2023/06/15/ml-training-report-2023/

                                                  大規模言語モデルの中身を覗いてみよう / look inside Large Language Models
                                                • Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用

                                                  英Stability AIは2月22日(現地時間)、画像生成機械学習モデルの新版「Stable Diffusion 3.0」の早期プレビューを発表した。新しいアーキテクチャを採用し、画質、マルチサブジェクト・プロンプトの処理、テキスト生成の精度が向上している。22日に早期プレビューのウエイティングリストへの登録受付が始まった。これは、一般公開に先駆けて性能と安全性を向上させるためのフィードバック収集を目的としている。 Stable Diffusion 3は、拡散トランスフォーマー・アーキテクチャにフローマッチングを組み合わせている。Stability AIは2022年8月以降、Stable Diffusion 1.4、1.5、2.0、2.1、XL 1.0、XL Turboを次々にリリースしてきたが、バージョン3.0は既存のモデルの強化版ではなく、アーキテクチャの刷新という点でオリジナル以来

                                                    Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用
                                                  • Sparse Attentionについて分かりやすく解説!

                                                    Transformer[1]の核心となる仕組みであるAttentionは、入力シーケンス内の各トークン間の関連性に基づいて注意の計算を行います。それにより、Transformerは従来の系列処理において主流であったRNNの性能を凌駕する性能を実現し、更には画像処理などの領域でも大きな成果を上げることができました[2]。このように従来のモデルでは成し得なかったような成果を達成できる万能な仕組みであるAttentionですが、その計算コストは入力シーケンス長\(n\)に対して指数関数的に増加するという大きな課題を持ちます。つまり、扱えるシーケンスの長さは計算機のハードウェア性能に大きく影響され、ある程度のシーケンス長を扱うには、高い処理能力と大容量のメモリを持つ計算機が必要となります。そのため、如何にすればAttentionの計算コストを下げることができるのか、計算量を減少させられるかが研究さ

                                                      Sparse Attentionについて分かりやすく解説!
                                                    • RWKVについて解説

                                                      本記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。 はじめに 自然言語処理の分野において、Transformer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransformerが登場しました。しかし、Transformerにも解決すべき問題が存在しています。そこで、これらのアプローチを結びつけて進化させていく必要が出てきました。 まず、RNNの利点と欠点を見てみましょう。RNNは、文章の長さにほとんど制約がなく、計算コストも比較的小さいという利点があります。しかし、以前の入力を正確に記憶することが難しく(長期依存性を捉えられない)、学習を高速化することも難しい(学習並列化が困難)という欠点も存在します。 一方、Transformerは長期依存性を捉え

                                                        RWKVについて解説
                                                      • これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2|shi3z

                                                        Transformerという手法は必ずしも万能でも効率的でもない。 むしろTransformerは非効率的だというのが一般的な見解だ。しかし、Transformerには実績があり、実績という壁の前には多少(かどうかわからないが)の非効率は無視される。 他にもHyenaなどもっと効率的と思われる手法が提案されているが、そうした提案の一つがRWKVである。 そもそもなぜTransformerが必要になったかというと、それまで言語モデルに用いられていたRNN(Recurrent Neural Network)は並列処理が難しかったからだ。並列処理が難しい理由は簡単で、言葉というのは過去から未来へ向かって一方向に進むからである。 言語モデルは全て「この文章に続く単語は何か」を予測し、それを連鎖的に繰り返していくが、RNNは単語をひとつひとつ選んでいかないと次の単語を原理的に予測できない。 これを並

                                                          これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2|shi3z
                                                        • 計算時間とメモリの壁を打破!Transformerの次世代モデルReformer

                                                          3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya (Submitted on 13 Jan 2020 (v1), last revised 18 Feb 2020 (this version, v2)) Comments: ICLR 2020 Subjects: Machine Learning (cs.L

                                                            計算時間とメモリの壁を打破!Transformerの次世代モデルReformer
                                                          • OpenAI Sora に使われる技術

                                                            TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

                                                              OpenAI Sora に使われる技術
                                                            • Scaled Dot-Product Attentionの本当の凄さを考える

                                                              近年、機械学習分野で大きな成果をあげているTransformer[1]において、その中核をなすScaled Dot-Product Attention[1]には、革新的な仕組みが備わっています。その仕組みとは、後で詳しく説明しますが、入力に応じて重みを動的に変えることが可能なニューラルネットワークで、これにより驚くほど広範囲で膨大な情報に対する適応性と表現力を実現することができます。本記事では、Scaled Dot-Product Attentionのこの仕組みとその利点について解説し、私なりの解釈を紹介できればと思います。 先に結論を簡単に まず、結論から説明すると、Scaled Dot-Product Attentionは、入力に基づいて重みを変えることが可能なニューラルネットワークという解釈が可能です。ただし、Scaled Dot-Product Attentionは学習パラメータを

                                                                Scaled Dot-Product Attentionの本当の凄さを考える
                                                              • Generative AI exists because of the transformer

                                                                The technology has resulted in a host of cutting-edge AI applications — but its real power lies beyond text generation

                                                                  Generative AI exists because of the transformer
                                                                • The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

                                                                  Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-t

                                                                  • Retentive Network: A Successor to Transformer for Large Language Models

                                                                    In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurre

                                                                    • ChatGPTの画期的な点とは ~並列処理ができるのが大きな強み【これからはじめるChatGPTの基礎知識】

                                                                        ChatGPTの画期的な点とは ~並列処理ができるのが大きな強み【これからはじめるChatGPTの基礎知識】
                                                                      • ジェネレーティブAIの進歩に大きな影響を与えた「Transformer」を開発した研究者らはなぜGoogleを去ったのか?

                                                                        昨今のChatGPTやMidjourneyなど、さまざまなジェネレーティブAIを支えるニューラルネットワークアーキテクチャである「Transformer」は、2017年にGoogleの研究者8人によって発表されました。しかし、Transformerの開発に携わった研究者は全員Googleを退職していることが報じられています。 Ex-Google Scientists Kickstarted the Generative AI Era of ChatGPT, Midjourney - Bloomberg https://www.bloomberg.com/opinion/features/2023-07-13/ex-google-scientists-kickstarted-the-generative-ai-era-of-chatgpt-midjourney 2017年にGoogleの研究

                                                                          ジェネレーティブAIの進歩に大きな影響を与えた「Transformer」を開発した研究者らはなぜGoogleを去ったのか?
                                                                        • LLMの根幹「Transformer」とは?並列処理に最適なワケ

                                                                          2017年にGoogleの研究者が提唱した深層学習モデルで、チャットAI「Chat GPT」などに使われる。「どこに注目するか」を重視したことで、自然言語処理での精度や処理速度を大幅に高めた。 米OpenAIの「ChatGPT」は2022年に公開されるやいなや、その精度の高さに世界が衝撃を受けた。このChatGPTは、同社の大規模言語モデル(LLM)「GPT(Chat Generative Pre-trained Transformer)」をベースにしている。Transformerこそ、LLMの根幹である。 Transformerはエンコーダー(符号器)とデコーダー(復号器)で構成し、「どこに注目するか」を重視するアテンション機構を中心としている。大規模並列処理に向いたモデルで、GPUでの処理を想定して設計した。 Transformerは米Google Brain(現在の米Google D

                                                                            LLMの根幹「Transformer」とは?並列処理に最適なワケ
                                                                          • AIは意識を持っているのか/持つのか、AI研究者と意識研究者たちが共同研究した結果 | AIDB

                                                                            AIは意識を持っているのか/持つのか、AI研究者と意識研究者たちが共同研究した結果 2023/8/28 メンタルヘルス・心理学 政治・社会 論文 AIDB Research AIが意識を持つ可能性についての議論が再燃しています。この問題は昔から、科学的にも哲学的にも注目が集まっています。 今回、オックスフォード大学、モントリオール大学、ARAYAなどの研究者たちは、AIが意識を持つ可能性についての科学的根拠を提供するための研究を行いました。彼らは、神経科学の理論に基づいてAIの意識の有無を評価する新しいアプローチを提案しています。 先に結論を書くと、『今のAIは、まだ意識を持っているわけではない』 『ただし、この先、AIが意識を持つことを妨げる”明確なハードルはない”』とのことです。 参照論文情報 タイトル:Consciousness in Artificial Intelligence:

                                                                              AIは意識を持っているのか/持つのか、AI研究者と意識研究者たちが共同研究した結果 | AIDB
                                                                            • GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch

                                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch
                                                                              • 自称Transformer後継モデル「RetNet」マイクロソフトら開発、脳活動から音楽を生成するAI「Brain2Music」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                                                2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第4回目は、Googleが開発した、昨今の生成AIの根幹をなすTransformerモデルの後継をうたう、マイクロソフトの技術など、5つの論文をまとめました。 生成AI論文ピックアップTransformer同等の性能でメモリ効率がよく高速なモデル「RetNet」 Microsoft含む研究者らが開発 Meta、商用利用可能な大規模言語モデル「Llama 2」発表 画像内の物体テレポーテーションAI「AnyDoor」 アリババ含む研究者らが開発 生成AIの処理が高速になる「FlashAttention-2」 米スタンフォード大の研究者が開発 脳活動から音楽を生成するAI

                                                                                  自称Transformer後継モデル「RetNet」マイクロソフトら開発、脳活動から音楽を生成するAI「Brain2Music」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                                                • RWKVを論文と実装から読み解く

                                                                                  RWKVとは 昨今GPTをはじめとしたtransformerベースの大規模言語モデルが流行しています.transformerの重要な要素であるSelf-Attentionは,長距離の依存関係を学習するできるというメリットがある一方で,シーケンス内のすべての要素と他のすべての要素との依存関係を計算するために,計算量とメモリ使用量がシーケンス長の二乗(つまり、トークンの数の二乗)に比例してしまうという問題があります. 一方でRNNベースのモデルは,メモリと計算要件の面で線形にスケールしますが、並列化と拡張性の制限からtransformerと同等の性能を達成することが困難です. そこで,transformerの効率的な並列学習と,RNNの効率的な推論の両方を兼ね備えたモデルとしてRWKV(Receptance Weighted Key Value)という新たなモデルアーキテクチャーが提案されまし

                                                                                    RWKVを論文と実装から読み解く