[B! Transformer] misshikiのブックマーク

misshiki id:misshiki

Transformerに関するmisshikiのブックマーク (228)

What Are Transformer Models and How Do They Work?
Introducing Command R+: Our new, most powerful model in the Command R family. Learn More
misshiki 2024/05/09
“トランスフォーマーは文脈を把握するのが非常に上手で、だからこそ彼らが書く文章が意味をなすのです。このブログ投稿では、そのアーキテクチャとその仕組みについて説明します。”

Transformer
リンク
A Visual Guide to Vision Transformers | MDTURP
A Visual Guide to Vision Transf ormers This is a visual guide to Vision Transf ormers (ViTs), a class of deep learning models that have achieved state-of-the-art performance on image classification tasks. Vision Transf ormers apply the transf ormer architecture, originally designed for natural language processing (NLP), to image data. This guide will walk you through the key components of Vision Tran
misshiki 2024/04/22
“これは、画像分類タスクで最先端のパフォーマンスを達成した深層学習モデルのクラスである Vision Transformers (ViT) のビジュアルガイドです。”

コンピュータビジョン

Transformer
リンク
Googleが開発した画像分類タスクが可能な機械学習モデル「Vision Transformers」の仕組みとは？
Googleの機械学習モデル「Transf ormer」は、データを時系列に処理しなくても、自然言語などのデータを翻訳やテキスト要約することが可能で、ChatGPTなどの自然な会話が可能なチャットAIのベースとなっています。また、Transf ormerの手法を画像分野に応用したモデルが「Vision Transf ormer」です。ソフトウェアエンジニアのデニス・タープ氏が、「Vision Transf ormer」のコンポーネントがどのように機能し、データはどのような流れをたどるのか、ビジュアル化して解説しています A Visual Guide to Vision Transf ormers | MDTURP https://blog.mdturp.ch/posts/2024-04-05-visual_guide_to_vision_transf ormer.html 0：はじめに前提として、T
misshiki 2024/04/22
“「Vision Transformer」のコンポーネントがどのように機能し、データはどのような流れをたどるのか、ビジュアル化して解説しています”

Transformer

コンピュータビジョン
リンク
But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning
Unpacking how large language models work under the hood Early view of the next chapter for patrons: https://3b1b.co/early-attention Special thanks to these supporters: https://3b1b.co/lessons/gpt#thanks To contribute edits to the subtitles, visit https://translate.3blue1brown.com/ Other recommended resources on the topic. Richard Turner's introduction is one of the best starting places: https:/
misshiki 2024/04/17
“GPTとは何なのか？トランスフォーマーのビジュアル入門”

Transformer

自然言語処理
リンク
3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning
ThanksSpecial thanks to those below for supporting the original video behind this post, and to current patrons for funding ongoing projects. If you find these lessons valuable, consider joining. .chanceA ZookAaron BinnsAda CohenAdam CedroneAdam Dřínekaeroeng15Alan SteinAlbin EgasseAlex Alex HackmanAlexandru IrimieaAlexis OlsonAli YahyaAljoscha SchulzeAlon AmitAlvin KhaledAman KarunakaranAndrea Di
misshiki 2024/04/16
Transformaerの心、Attentionの可視化

Transformer

ディープラーニング

自然言語処理
リンク
[論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました｜斑鳩イカリング@金融AI
[論文紹介コード付] 時系列Transf ormerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができましたタイトル：Chronos: Learning the Language of Time Series 著者：Abdul Fatir Ansari1∗ , Lorenzo Stella1∗ , Caner Turkmen1 , Xiyuan Zhang2† , Pedro Mercado1 , Huibin Shen1 , Oleksandr Shchur1 , Syama Sundar Rangapuram1 , Sebastian Pineda Arango3‡ , Shubham Kapoor1 , Jasper Zschiegner, Danielle C. Maddix1 , Michael W. Mahoney4 , Kari Torkkola4
misshiki 2024/04/12
“一言でまとめると：時系列Transformerを自然言語処理のお作法で鍛えたら，ゼロショットで未来の系列を予測することができました”

Transformer

時系列分析
リンク
Jamba: A Hybrid Transformer-Mamba Language Model
We present Jamba, a new base large language model based on a novel hybrid Transf ormer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transf ormer and Mamba layers, enjoying the benefits of both model families. MoE is added in some of these layers to increase model capacity while keeping active parameter usage manageable. This flexible architecture allows reso
misshiki 2024/04/04
論文“Jamba: ハイブリッド Transformer-Mamba 言語モデル”

Transformer

自然言語処理
リンク
「Transformer」後継と期待される「RetNet」活用　PKSHAが日英対応の独自LLMを開発　日本MSも協力
AIベンチャー・PKSHA Techno logy（東京都文京区）は3月28日、「RetNet」技術を活用した日英大規模言語モデル（LLM）を開発したと発表した。RetNetを使用した日英モデルは世界初で、日本マイクロソフトの技術支援により実現。PKSHA Techno logyの上野山勝也代表は「これによって生成AIの活用が一段前に進む」と自信を見せる。左から、PKSHA Communication、PKSHA Workplaceの佐藤哲也代表、PKSHA Techno logyの上野山勝也代表、日本マイクロソフト執行役員常務最高技術責任者の野嵜弘倫さん、PKSHA Techno logy アルゴリズムエンジニア VPoEの森下賢志さん、PKSHA Techno logy アルゴリズムリードの稲原宗能さん今回開発したLLMの最大の特徴であるRetNetとは「Retentive Netwo
misshiki 2024/03/29
“今回開発したLLMの最大の特徴であるRetNetとは「Retentive Network」の略称で、米Microsoft Researchが開発した技術。現在、LLMのアーキテクチャは「Transformer」が主流だが、Microsoftは「RetNetはこの後継として期待される」と説明。”

Microsoft

Transformer

人工知能

自然言語処理
リンク
OpenAI Sora に使われる技術
TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開画像生成モデル Diffusion-Transf ormer を利用動画を3次元画像として扱うことで画像モデルを拡張キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。こ
misshiki 2024/03/27
“OpenAI が非常に高品質な動画生成モデル Sora を公開。画像生成モデル Diffusion-Transformer を利用。動画を3次元画像として扱うことで画像モデルを拡張。キャプションは DALL•E3 同様、キャプション生成モデルで作成。”

OpenAI

Transformer

コンピュータビジョン

自然言語処理
リンク
GitHub - openai/transformer-debugger
Transf ormer Debugger (TDB) is a tool developed by OpenAI's Superalignment team with the goal of supporting investigations into specific behaviors of small language models. The tool combines automated interpretability techniques with sparse autoencoders. TDB enables rapid exploration before needing to write code, with the ability to intervene in the forward pass and see how it affects a particular
misshiki 2024/03/13
OpenAI製 “Transformer Debugger (TDB) は、小さな言語モデルの特定の動作の調査をサポートすることを目的として開発されたツール。フォワードパスに介入して特定の動作にどのような影響を与えるかを確認できる...”

OpenAI

人工知能

Transformer
リンク
【論文丁寧解説】BitNet b1.58とは一体何者なのか - Qiita
はじめにこの記事では、巷で「この技術によりGPUが不要になるかもしれない、NVIDIAなどの半導体関係の株価が...」と話題になっている、Bit Net b1.58についての論文を丁寧に解説します。このMicrosoftが先日発表したBit Net b1.58はそのエネルギー効率の凄まじさから2024年初めの大きな技術改革となるかもしれません！！筆者の見解関する論文解説に入る前に、この技術に関する私の個人的な意見を述べたいと思います。 1bitの技術を用いることで達成されたその驚異的なエネルギー効率の高さは、既存の大規模言語モデル（LLM）とは一線を画しています。この技術が今後のAI 技術の発展にどのように影響を与えるかについては以降の発表がとても楽しみです。一方で、「GPUが不要になるかもしれない」という意見に関しては、ある程度の限定的な視点からの意見と言えます。Bit Net b1.5
misshiki 2024/03/04
“一方で、「GPUが不要になるかもしれない」という意見に関しては、ある程度の限定的な視点からの意見と言えます。”

自然言語処理

Transformer

人工知能
リンク
速報：話題の 1ビットLLMとは何か？｜寺田英雄（㈱オープンストリームCTO）
2024-02-27にarXiv公開され，昨日（2024-02-28）あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「１ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c
misshiki 2024/03/04
“そもももこれは何なのか？LLMのモデルで中心的役割を果しているトランスフォーマー（Transformer）の、入力および出力の埋め込み変換行列 W の数値の精度を大幅に削減（１ビット！化）して小型化したもの。”

Transformer

自然言語処理
リンク
GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
misshiki 2024/02/29
“BitNet”公式リポジトリ。

自然言語処理

Transformer

PyTorch
リンク
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Recent research, such as Bit Net, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely Bit Net b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transf ormer LLM with the same model size and training tokens in terms of both perplexity and end-t
misshiki 2024/02/29
論文“1 ビット LLM の時代: すべての大規模言語モデルは 1.58 ビットです”

Transformer

自然言語処理
リンク
驚異の1ビットLLMを試す。果たして本当に学習できるのか?｜shi3z
昨日話題になった「Bit Net」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 Bit Netというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、Bit NetによるTransf ormerの野良実装
misshiki 2024/02/29
“モデルサイズは200MB。GBじゃないよ。僕は小さい言語モデルも大きい言語モデルもそこそこ触って来た方だと思うが、このサイズでこの解答は驚異的だ。”

人工知能

Transformer

自然言語処理

Microsoft
リンク
Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用
英Stability AIは2月22日（現地時間）、画像生成機械学習モデルの新版「Stable Diffusion 3.0」の早期プレビューを発表した。新しいアーキテクチャを採用し、画質、マルチサブジェクト・プロンプトの処理、テキスト生成の精度が向上している。22日に早期プレビューのウエイティングリストへの登録受付が始まった。これは、一般公開に先駆けて性能と安全性を向上させるためのフィードバック収集を目的としている。 Stable Diffusion 3は、拡散トランスフォーマー・アーキテクチャにフローマッチングを組み合わせている。Stability AIは2022年8月以降、Stable Diffusion 1.4、1.5、2.0、2.1、XL 1.0、XL Turboを次々にリリースしてきたが、バージョン3.0は既存のモデルの強化版ではなく、アーキテクチャの刷新という点でオリジナル以来
misshiki 2024/02/27
“Stable Diffusion 3のトランスフォーマー・アーキテクチャに基づいた新しいタイプの拡散モデルは、Soraと同様の手法である。”

コンピュータビジョン

Transformer
リンク
ChatGPTの基盤技術Transformerを処理性能で5倍上回る、AIアルゴリズム「Mamba」 - fabcross for エンジニア
新たなAIアルゴリズム「Mamba」の開発成果とされる論文が、2023年12月1日、プレプリントサーバー「arXiv」に掲載された。論文は、Mambaの性能について、ChatGPTを駆動するLLM（大規模言語モデル）の「Transf ormer」より5倍高速だと主張している。 Transf ormerは、生成AIチャットボットの基盤技術であり、用途の広い深層学習モデルだ。ただし、Transf ormerには、入力データ（シーケンス）が長い場合に計算の効率が低下するという弱点があった。 Mambaの技術的な特徴は、構造化された状態空間モデル（SSM）を改良したことで、モデルのパラメータを、入力データに合わせて動的に調整する能力だ。これにより、データの重要な部分の処理に集中し、不要な情報は無視できる。論文は、Mambaのスループット（推論速度）が、Transf ormerより5倍高速だと説明している
misshiki 2024/02/21
Transformer

自然言語処理
リンク
【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
Transf ormer 深層学習モデル以前の言語モデルの課題言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。（LLM資料p.8参照）ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。ニューラル言語モデルしかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN（Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。（勾配消失＆単語間の長距離依存性の把握が困難） RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし
misshiki 2024/02/19
“第3回の講義資料”まとめ。

Transformer

自然言語処理
リンク
【AI動画生成】Sora 要素技術解説
もう全部OpenAIでいいんじゃないかなはじめに月間技術革新です。ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。原文を見たい方はこちらからどうぞ全体構成 Soraは以下の技術要素で構成されているとのこと
misshiki 2024/02/19
“論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。”

コンピュータビジョン

Transformer

自然言語処理
リンク
MAGNeT
misshiki 2024/02/15
MAGNeT＝“Masked Audio Generation using a Single Non-Autoregressive Transformer”

音声処理

Transformer

自然言語処理
リンク
1 2 3 4 5 6 7 8 9 10 次のページ