Transformerの人気記事 74件 - はてなブックマーク

1 - 40 件 / 74件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Transformerの検索結果1 - 40 件 / 74件

【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ
- 554 users
- www.sbbit.jp
- テクノロジー
- 2023/09/27
第1回は、さまざまなタスクをこなす万能型ジェネレーティブAIツール「ChatGPT」の性能の鍵を握る「トークン長（GPTが文脈を意識できる過去の単語数）」やGPTの歴史的経緯について解説しました。第2回はGPTを支える自然言語処理の分野で使用される深層学習モデル「Transformer」とその根幹となる「Attention機構（そのタスクにおいてどの単語の重要度が高く、注目すべきか決める仕組み）」についてです。TransformerとAttention機構の仕組みを定性的に把握し、それを踏まえてGPTの能力と可能性について考察したいと思います。テクノロジー領域に明るくない人でもわかる記事を目指します。
- ChatGPT
- あとで読む
- AI
- 機械学習
- 文章生成AI
- GPT
- 人工知能
- 学習
- techfeed
- 考察
GWに徹底理解！GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開 | Ledge.ai
- 543 users
- ledge.ai
- テクノロジー
- 2024/04/28
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
- AI
- あとで読む
- ChatGPT
- GPT
- 動画
- ツール
- 勉強
- 便利
- 無料
- IT
驚異の1ビットLLMを試す。果たして本当に学習できるのか?｜shi3z
- 442 users
- note.com/shi3zblog
- テクノロジー
- 2024/02/29
昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装
- LLM
- AI
- あとで読む
- BitNet
- 機械学習
- 学習
- 人工知能
- 技術
- Microsoft
- 研究
ChatGPTのコア技術「GPT」をざっくり理解する - Qiita
- 387 users
- qiita.com/ksonoda
- テクノロジー
- 2023/06/01
※本記事はOracleの下記Meetup「Oracle Big Data Jam Session」で実施予定の内容です。 ※セミナー実施済の動画に関しては以下をご参照ください。本記事の対象者これから機械学習を利用した開発をしていきたい方機械学習のトレンド技術を知りたい方なるべく初歩的な内容から学習したい方はじめに Transformerの登場以降、著しい技術革新が続くここ数年、特にOpenAI社のChatGPTのサービス開始以降、おびただしい数の技術ブログや記事がインターネット上に存在する中、本記事に目を留めていただいてありがとうございます。この勉強会では、専門用語や難解な公式を極力排除し、初学者の方々を対象に、「そもそも自然言語の機械学習ってどういうもの？」、「言語モデルって要するに何？」というところからGPTをざっくり理解することを目的としています。従って、本記事に記載のあ
- ChatGPT
- あとで読む
- アルゴリズム
- GPT
- AI
- 技術
- 機械学習
- 言語
- 学習
- 統計
【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
- 322 users
- qiita.com/mohki7
- テクノロジー
- 2024/02/17
Transformer 深層学習モデル以前の言語モデルの課題言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。（LLM資料p.8参照）ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。ニューラル言語モデルしかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN（Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。（勾配消失＆単語間の長距離依存性の把握が困難） RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし
- LLM
- あとで読む
- AI
- 学習
- ChatGPT
- 資料
【AI動画生成】Sora 要素技術解説
- 308 users
- zenn.dev/mattyamonaca
- テクノロジー
- 2024/02/17
もう全部OpenAIでいいんじゃないかなはじめに月間技術革新です。ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。原文を見たい方はこちらからどうぞ全体構成 Soraは以下の技術要素で構成されているとのこと
- AI
- あとで読む
- 動画
- 技術
- OpenAI
- StableDiffusion
- GPT
- 学習
- 論文
ChatGPTなど数々の高性能AIを生み出した仕組み「Attention」についての丁寧な解説ムービーが公開される
- 291 users
- gigazine.net
- テクノロジー
- 2024/04/16
さまざまな数学的トピックをムービー形式で解説するサイト「3Blue1Brown」において、ChatGPTに代表されるAIを形作っている「Transformer」構造の心臓部「Attention(アテンション)」についての解説が行われています。 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning https://www.3blue1brown.com/lessons/attention AIの中身と言える大規模言語モデルのベースとなる仕事は「文章を読んで次に続く単語を予測する」というものです。文章は「トークン」という単位に分解され、大規模言語モデルではこのトークン単位で処理を行います。実際には単語ごとに1トークンという訳ではありませんが、3Blue1Brownは単純化して
- AI
- あとで読む
- ChatGPT
- 人工知能
- チュートリアル
- 機械学習
- 数学
- tutorial
- 勉強
- 解説
225行のコードでGPTの仕組みを理解する
- 286 users
- zenn.dev/hijikix
- テクノロジー
- 2023/08/27
概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字（単語ではないことに注意）予測機を作成するというものです。この動画で完成するコードは以下で、225行しかなくとても読みやすいです。また短いですがtransformerのエッセンスが詰まっていて勉強になりそうです。このコードを読み解くことでGPTやtransformerがどのように動いているのか、ざっくり理解してみようと思います。ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo
- LLM
- あとで読む
- ChatGPT
- AI
- 機械学習
- transformer
- 自然言語処理
- programming
- Python
「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ
- 238 users
- tjo.hatenablog.com
- テクノロジー
- 2023/10/21
先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か？」を公開しました。論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twitter.com/nUXb4bGiQ3— GO Inc. AI Tech (@goinc_ai_tech) 2023年9月28日なるほど、NN全盛というかNN一択の時代にあっては時系列予測もNNでやるのが当たり前になったのだなという感想でした。大昔「沖本本」で古典的な計量時系列分析を一通り学んだ身としては隔世の感がありますが、これもまたNN時代の趨勢なのでしょう。なお、元論文2点は上記リンクから辿
- 機械学習
- あとで読む
- AI
- 時系列分析
- 時系列
- 論文
- データ
- 学習
- 統計
- 勉強
Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6％をたたき出す「phi-1」を発表
- 229 users
- gigazine.net
- テクノロジー
- 2023/06/22
LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット・HumanEvalでGPT-3.5を上回る成績を収めたことが報告されています。 [2306.11644] Textbooks Are All You Need https://doi.org/10.48550/arXiv.2306.11644 Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa https://analyticsindiama
- AI
- Microsoft
- あとで読む
- 人工知能
- LLM
- 機械学習
- 技術
- ChatGPT
- 学習
- techfeed
速報：話題の 1ビットLLMとは何か？｜寺田英雄（㈱オープンストリームCTO）
- 227 users
- note.com/3d_vizionist
- テクノロジー
- 2024/03/02
2024-02-27にarXiv公開され，昨日（2024-02-28）あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「１ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c
- AI
- あとで読む
- LLM
- 論文
- 人工知能
- 学習
- GPT
- microsoft
- 研究
- 文章
GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
- 206 users
- www.youtube.com
- テクノロジー
- 2024/05/11
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。チャンネル登録と高評価をよろしくお願いいたします。日本語版Twitter https://twitter.com/3B1BJP 元チャンネル（英語） https://www.youtube.com/c/3blue1brown 元動画（英語） https://youtu.be/wjZofJX0v4M?si=9YsuEzHATlhPtpOF Check out our new channel Ufolium https://www.youtube.com/watch?v=wrNCjIjIzuk&pp=ygUj5aSn57Wx6aCY6YG45oyZ44Gu5LuV57WE44G_IHVmb2xpdW0%3D Richard Turner's introduction
- AI
- あとで読む
- GPT
- Transformer
- LLM
- visualization
- アルゴリズム
- 機械学習
- YouTube
ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント
- 161 users
- gigazine.net
- テクノロジー
- 2023/10/10
GoogleやAmazonが投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス
- AI
- 人工知能
- あとで読む
- techfeed
- LLM
- Transformer
- 脳
- 機械学習
初心者が言語モデルを勉強するための本（2023年6月版） - ぱたへね
- 154 users
- natsutan.hatenablog.com
- テクノロジー
- 2023/06/22
流行のLLMを勉強したくて沢山本を読みました。この後もしばらくLLM（GPT）関係の出版が続きそうなので、現状の本でまとめてみました。参考： nowokay.hatenablog.com まとめ。 Transformerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transformer入門言語モデルをデータセットを作る所からやってみたい人には、作ってわかる! 自然言語処理AI とにかくすぐに動かしたい人には、機械学習エンジニアのためのTransformers ビジネス的に何ができるのかを知りたい人はBERT入門 Vision Transformer入門 Vison Transformerになっていますが、Transformerの説明がとても詳しくお勧めです。実際に写経してパーツパーツで動かせるのはこの本だけ。Transformer一点突破な
- LLM
- あとで読む
- 入門
- 本
- 学習
- 書籍
- 機械学習
- 言語
- GPT
- 勉強
ChatGPT の仕組みを理解する（前編） - ABEJA Tech Blog
- 148 users
- tech-blog.abeja.asia
- テクノロジー
- 2023/07/27
こんにちは！株式会社 ABEJA で ABEJA Platform 開発を行っている坂井（@Yagami360）です。世間では ChatGPT などの大規模言語モデル（LLM）による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。本記事の対象読者としては、以下のようになりま
- ChatGPT
- LLM
- あとで読む
- AI
- 機械学習
- 人工知能
- 文章生成AI
- techfeed
- 勉強
統計数理シンポジウム生成モデル岡野原
- 81 users
- hillbig.github.io
- テクノロジー
- 2023/05/26
株式会社 Preferred Networks 岡野原大輔 @hillbig 生成モデルは世界をどのように理解しているのか「統計的機械学習」の中核としての統計数理シンポジウム 2023/05/25 アジェンダ • 現在の代表的な生成モデル大規模言語モデル/ 拡散モデル • 自己教師あり学習 / メタ学習 • 未解決問題岩波書店 2023 一般向け関連書籍岩波書店 2023 専門家向け技術評論社 2021 2022 ディープラーニングの基礎知識日経BP 2022 個別の深い話題生成モデル x ~ p(X | C) X: 生成対象 C: 条件 • 生成モデル：対象ドメインのデータを生成できるようなモデル – テキスト、画像、動画、化合物、行動列等 – 条件を通じて、制約、指示、対象ドメインなどを指定する（条件付き生成モデルの方が学習の面でも使いやすさの面でも有利であ
ChatGPTなどの対話型AIの基礎となっている「Attention」を可視化した「Attention Viz」
- 70 users
- gigazine.net
- テクノロジー
- 2023/05/20
ChatGPTやBing Chatの背景にある大規模言語モデルの多くは、Googleが開発したニューラルネットワークアーキテクチャーの「Transformer」を採用しています。このTransformerの鍵になるのが「Self-Attention」というシステムです。このSelf-Attentionを視覚化するためのツール「Attention Viz」を、ハーバード大学とGoogleの共同研究チームが発表しました。 AttentionViz Docs https://catherinesyeh.github.io/attn-docs/ Transformerがどういう仕組みのアーキテクチャなのかについては、以下の記事を読むとよくわかります。 ChatGPTにも使われる機械学習モデル「Transformer」が自然な文章を生成する仕組みとは？ - GIGAZINE 自然言語処理をディープラ
- AI
- あとで読む
- ChatGPT
- 人工知能
- 機械学習
- techfeed
- *あとで読む
- google
大規模言語モデル
- 69 users
- speakerdeck.com/chokkan
- テクノロジー
- 2023/09/05
2023年度統計関連学会連合大会チュートリアルセッション　言語モデルと自然言語処理のフロンティア
- LLM
- AI
- Deep Learning
- 自然言語処理
- ChatGPT
- 機械学習
- あとで読む
- tutorial
【論文丁寧解説】BitNet b1.58とは一体何者なのか - Qiita
- 59 users
- qiita.com/tech-Mira
- テクノロジー
- 2024/03/02
はじめにこの記事では、巷で「この技術によりGPUが不要になるかもしれない、NVIDIAなどの半導体関係の株価が...」と話題になっている、BitNet b1.58についての論文を丁寧に解説します。このMicrosoftが先日発表したBitNet b1.58はそのエネルギー効率の凄まじさから2024年初めの大きな技術改革となるかもしれません！！筆者の見解関する論文解説に入る前に、この技術に関する私の個人的な意見を述べたいと思います。 1bitの技術を用いることで達成されたその驚異的なエネルギー効率の高さは、既存の大規模言語モデル（LLM）とは一線を画しています。この技術が今後のAI技術の発展にどのように影響を与えるかについては以降の発表がとても楽しみです。一方で、「GPUが不要になるかもしれない」という意見に関しては、ある程度の限定的な視点からの意見と言えます。BitNet b1.5
Metaが既存の生成AIにあるトークン制限をはるかに上回る100万トークン超のコンテンツ生成を可能にする次世代AIアーキテクチャ「Megabyte」を発表
- 50 users
- gigazine.net
- テクノロジー
- 2023/05/25
MetaのAI研究チームが、100万トークンを超えるテキストや画像、オーディオ形式などのコンテンツを生成できる可能性を持つ「Megabyte(メガバイト)」のアーキテクチャを提唱しました。GPT-4やBardなどのAIモデルの基盤となっているアーキテクチャは「Transformer」ですが、MegabyteをAIモデルに採用することで、より高度で熟練したAIモデルの開発が可能になるとMetaは主張しています。 [2305.07185] MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers https://doi.org/10.48550/arXiv.2305.07185 Meta AI Unleashes Megabyte, a Revolutionary Scalable Model Archit
- AI
- あとで読む
- 文章
- 研究
- *あとで読む
ChatGPT の仕組みを理解する（後編） - ABEJA Tech Blog
- 46 users
- tech-blog.abeja.asia
- テクノロジー
- 2023/07/27
こちらは「ChatGPT の仕組みを理解する」の後編記事になります。前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている InstructGPT を説明したいところなんですが、InstructGPT では強化学習の手法を使用しているので、後半記事では一旦自然言語から離れて強化学習の基礎から PPO までを説明し、最後にメインコンテンツである InstructGPT → ChatGPT を説明します。強化学習の基礎事項強化学習のモデル化環境のマルコフ性とマルコフ決定過程（MDP）価値関数強化学習手法の分類価値ベースの強化学習手法方策ベースの強化学習手法と方策勾配法アクター・クリティック手法 TRPO [Tr
- ChatGPT
- AI
- 文章生成AI
- あとで読む
- 人工知能
- techfeed
- 勉強
「Transformer」後継と期待される「RetNet」活用　PKSHAが日英対応の独自LLMを開発　日本MSも協力
- 42 users
- www.itmedia.co.jp
- テクノロジー
- 2024/03/28
AIベンチャー・PKSHA Technology（東京都文京区）は3月28日、「RetNet」技術を活用した日英大規模言語モデル（LLM）を開発したと発表した。RetNetを使用した日英モデルは世界初で、日本マイクロソフトの技術支援により実現。PKSHA Technologyの上野山勝也代表は「これによって生成AIの活用が一段前に進む」と自信を見せる。左から、PKSHA Communication、PKSHA Workplaceの佐藤哲也代表、PKSHA Technologyの上野山勝也代表、日本マイクロソフト執行役員常務最高技術責任者の野嵜弘倫さん、PKSHA Technology アルゴリズムエンジニア VPoEの森下賢志さん、PKSHA Technology アルゴリズムリードの稲原宗能さん今回開発したLLMの最大の特徴であるRetNetとは「Retentive Netwo
- 人工知能
- techfeed
- LLM
- あとで読む
- ai
- Microsoft
- news
大規模言語モデルの中身を覗いてみよう / look inside Large Language Models
- 37 users
- speakerdeck.com/ae14watanabe
- テクノロジー
- 2023/06/22
GMOペパボの新卒エンジニア向け機械学習研修2023における座学の資料です。機械学習について教師あり学習の考え方は知っている、ぐらいの方を対象に、大規模言語モデル（Large Language Model: LLM）がどのようにテキストを出力して、どのように学習しているかなど解説しています。（LLMの個々のモデルの詳細やLLMのライブラリなどは対象外です）研修では、この他にも機械学習自体の初学者向けの座学など、さまざまなコンテンツを実施しました。詳細は以下のブログをご覧ください。 https://rand.pepabo.com/article/2023/06/15/ml-training-report-2023/
- LLM
- あとで読む
- AI
- 言語
Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用
- 36 users
- news.mynavi.jp
- テクノロジー
- 2024/02/25
英Stability AIは2月22日（現地時間）、画像生成機械学習モデルの新版「Stable Diffusion 3.0」の早期プレビューを発表した。新しいアーキテクチャを採用し、画質、マルチサブジェクト・プロンプトの処理、テキスト生成の精度が向上している。22日に早期プレビューのウエイティングリストへの登録受付が始まった。これは、一般公開に先駆けて性能と安全性を向上させるためのフィードバック収集を目的としている。 Stable Diffusion 3は、拡散トランスフォーマー・アーキテクチャにフローマッチングを組み合わせている。Stability AIは2022年8月以降、Stable Diffusion 1.4、1.5、2.0、2.1、XL 1.0、XL Turboを次々にリリースしてきたが、バージョン3.0は既存のモデルの強化版ではなく、アーキテクチャの刷新という点でオリジナル以来
Sparse Attentionについて分かりやすく解説！
- 35 users
- developers.agirobots.com
- テクノロジー
- 2023/05/27
Transformer[1]の核心となる仕組みであるAttentionは、入力シーケンス内の各トークン間の関連性に基づいて注意の計算を行います。それにより、Transformerは従来の系列処理において主流であったRNNの性能を凌駕する性能を実現し、更には画像処理などの領域でも大きな成果を上げることができました[2]。このように従来のモデルでは成し得なかったような成果を達成できる万能な仕組みであるAttentionですが、その計算コストは入力シーケンス長$n$に対して指数関数的に増加するという大きな課題を持ちます。つまり、扱えるシーケンスの長さは計算機のハードウェア性能に大きく影響され、ある程度のシーケンス長を扱うには、高い処理能力と大容量のメモリを持つ計算機が必要となります。そのため、如何にすればAttentionの計算コストを下げることができるのか、計算量を減少させられるかが研究さ
RWKVについて解説
- 33 users
- developers.agirobots.com
- テクノロジー
- 2023/08/17
本記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。はじめに自然言語処理の分野において、Transformer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransformerが登場しました。しかし、Transformerにも解決すべき問題が存在しています。そこで、これらのアプローチを結びつけて進化させていく必要が出てきました。まず、RNNの利点と欠点を見てみましょう。RNNは、文章の長さにほとんど制約がなく、計算コストも比較的小さいという利点があります。しかし、以前の入力を正確に記憶することが難しく（長期依存性を捉えられない）、学習を高速化することも難しい（学習並列化が困難）という欠点も存在します。一方、Transformerは長期依存性を捉え
これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2｜shi3z
- 33 users
- note.com/shi3zblog
- テクノロジー
- 2023/11/14
Transformerという手法は必ずしも万能でも効率的でもない。むしろTransformerは非効率的だというのが一般的な見解だ。しかし、Transformerには実績があり、実績という壁の前には多少(かどうかわからないが)の非効率は無視される。他にもHyenaなどもっと効率的と思われる手法が提案されているが、そうした提案の一つがRWKVである。そもそもなぜTransformerが必要になったかというと、それまで言語モデルに用いられていたRNN(Recurrent Neural Network)は並列処理が難しかったからだ。並列処理が難しい理由は簡単で、言葉というのは過去から未来へ向かって一方向に進むからである。言語モデルは全て「この文章に続く単語は何か」を予測し、それを連鎖的に繰り返していくが、RNNは単語をひとつひとつ選んでいかないと次の単語を原理的に予測できない。これを並
計算時間とメモリの壁を打破！Transformerの次世代モデルReformer
- 32 users
- ai-scholar.tech
- テクノロジー
- 2023/09/01
3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya (Submitted on 13 Jan 2020 (v1), last revised 18 Feb 2020 (this version, v2)) Comments: ICLR 2020 Subjects: Machine Learning (cs.L
OpenAI Sora に使われる技術
- 31 users
- zenn.dev/elith
- テクノロジー
- 2024/03/27
TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開画像生成モデル Diffusion-Transformer を利用動画を3次元画像として扱うことで画像モデルを拡張キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。こ
- AI
- あとで読む
- 人工知能
- 機械学習
- 画像
- 動画
Scaled Dot-Product Attentionの本当の凄さを考える
- 30 users
- developers.agirobots.com
- テクノロジー
- 2023/06/11
近年、機械学習分野で大きな成果をあげているTransformer[1]において、その中核をなすScaled Dot-Product Attention[1]には、革新的な仕組みが備わっています。その仕組みとは、後で詳しく説明しますが、入力に応じて重みを動的に変えることが可能なニューラルネットワークで、これにより驚くほど広範囲で膨大な情報に対する適応性と表現力を実現することができます。本記事では、Scaled Dot-Product Attentionのこの仕組みとその利点について解説し、私なりの解釈を紹介できればと思います。先に結論を簡単にまず、結論から説明すると、Scaled Dot-Product Attentionは、入力に基づいて重みを変えることが可能なニューラルネットワークという解釈が可能です。ただし、Scaled Dot-Product Attentionは学習パラメータを
Generative AI exists because of the transformer
- 27 users
- ig.ft.com
- テクノロジー
- 2023/10/07
The technology has resulted in a host of cutting-edge AI applications — but its real power lies beyond text generation
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
- 26 users
- arxiv.org
- 学び
- 2024/02/28
Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-t
- LLM
- あとで読む
Retentive Network: A Successor to Transformer for Large Language Models
- 24 users
- arxiv.org
- 学び
- 2023/07/18
In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurre
- LLM
- 機械学習
- ai
- performance
- あとで読む
ChatGPTの画期的な点とは～並列処理ができるのが大きな強み【これからはじめるChatGPTの基礎知識】
- 24 users
- forest.watch.impress.co.jp
- テクノロジー
- 2023/08/01
- ChatGPT
- 文章生成AI
- 人工知能
- techfeed
- article
- 資料
ジェネレーティブAIの進歩に大きな影響を与えた「Transformer」を開発した研究者らはなぜGoogleを去ったのか？
- 23 users
- gigazine.net
- テクノロジー
- 2023/08/22
昨今のChatGPTやMidjourneyなど、さまざまなジェネレーティブAIを支えるニューラルネットワークアーキテクチャである「Transformer」は、2017年にGoogleの研究者8人によって発表されました。しかし、Transformerの開発に携わった研究者は全員Googleを退職していることが報じられています。 Ex-Google Scientists Kickstarted the Generative AI Era of ChatGPT, Midjourney - Bloomberg https://www.bloomberg.com/opinion/features/2023-07-13/ex-google-scientists-kickstarted-the-generative-ai-era-of-chatgpt-midjourney 2017年にGoogleの研究
LLMの根幹「Transformer」とは？並列処理に最適なワケ
- 22 users
- xtech.nikkei.com
- テクノロジー
- 2023/12/08
2017年にGoogleの研究者が提唱した深層学習モデルで、チャットAI「Chat GPT」などに使われる。「どこに注目するか」を重視したことで、自然言語処理での精度や処理速度を大幅に高めた。米OpenAIの「ChatGPT」は2022年に公開されるやいなや、その精度の高さに世界が衝撃を受けた。このChatGPTは、同社の大規模言語モデル（LLM）「GPT（Chat Generative Pre-trained Transformer）」をベースにしている。Transformerこそ、LLMの根幹である。 Transformerはエンコーダー（符号器）とデコーダー（復号器）で構成し、「どこに注目するか」を重視するアテンション機構を中心としている。大規模並列処理に向いたモデルで、GPUでの処理を想定して設計した。 Transformerは米Google Brain（現在の米Google D
- language
- 人工知能
- 言語
- techfeed
- 学習
- AI
- Microsoft
- software
- development
AIは意識を持っているのか/持つのか、AI研究者と意識研究者たちが共同研究した結果 | AIDB
- 22 users
- ai-data-base.com
- テクノロジー
- 2023/08/28
AIは意識を持っているのか/持つのか、AI研究者と意識研究者たちが共同研究した結果 2023/8/28 メンタルヘルス・心理学政治・社会論文 AIDB Research AIが意識を持つ可能性についての議論が再燃しています。この問題は昔から、科学的にも哲学的にも注目が集まっています。今回、オックスフォード大学、モントリオール大学、ARAYAなどの研究者たちは、AIが意識を持つ可能性についての科学的根拠を提供するための研究を行いました。彼らは、神経科学の理論に基づいてAIの意識の有無を評価する新しいアプローチを提案しています。先に結論を書くと、『今のAIは、まだ意識を持っているわけではない』『ただし、この先、AIが意識を持つことを妨げる”明確なハードルはない”』とのことです。参照論文情報タイトル：Consciousness in Artificial Intelligence:
- 人工知能
- ai
- research
- 研究
- あとで
- あとで読む
GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch
- 21 users
- github.com/kyegomez
- テクノロジー
- 2024/02/28
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- LLM
- 言語
- github
- あとで読む
自称Transformer後継モデル「RetNet」マイクロソフトら開発、脳活動から音楽を生成するAI「Brain2Music」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge
- 19 users
- www.techno-edge.net
- テクノロジー
- 2023/07/24
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第4回目は、Googleが開発した、昨今の生成AIの根幹をなすTransformerモデルの後継をうたう、マイクロソフトの技術など、5つの論文をまとめました。生成AI論文ピックアップTransformer同等の性能でメモリ効率がよく高速なモデル「RetNet」　Microsoft含む研究者らが開発 Meta、商用利用可能な大規模言語モデル「Llama 2」発表画像内の物体テレポーテーションAI「AnyDoor」　アリババ含む研究者らが開発生成AIの処理が高速になる「FlashAttention-2」　米スタンフォード大の研究者が開発脳活動から音楽を生成するAI
- Transformer
- AI
- ICT
- 研究
- 開発
- あとで読む
RWKVを論文と実装から読み解く
- 19 users
- zenn.dev/jow
- テクノロジー
- 2023/06/07
RWKVとは昨今GPTをはじめとしたtransformerベースの大規模言語モデルが流行しています．transformerの重要な要素であるSelf-Attentionは，長距離の依存関係を学習するできるというメリットがある一方で，シーケンス内のすべての要素と他のすべての要素との依存関係を計算するために，計算量とメモリ使用量がシーケンス長の二乗（つまり、トークンの数の二乗）に比例してしまうという問題があります．一方でRNNベースのモデルは，メモリと計算要件の面で線形にスケールしますが、並列化と拡張性の制限からtransformerと同等の性能を達成することが困難です．そこで，transformerの効率的な並列学習と，RNNの効率的な推論の両方を兼ね備えたモデルとしてRWKV（Receptance Weighted Key Value）という新たなモデルアーキテクチャーが提案されまし