並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 324件

新着順 人気順

Transformerの検索結果81 - 120 件 / 324件

  • Stable Diffusionの内容を理解するための情報・書籍 - karaage. [からあげ]

    Stable Diffusion完全に理解した 画像生成AIで話題のStable Diffusion、完全に理解した状態になりたいですね。私もです。夜な夜な、Stable Diffusion睡眠不足になりながらの自分の理解は以下です。 Stable DiffusionというAIモデルは、上記のように、2つのモデルで構成されています。凄いのがDiffusion Modelとよばれるもので、これはランダムノイズ的な画像から、クオリティの高い絵を生成することができます。 ただ、このままだとどんな絵が生成されるか分からないので、絵をコントロールするために、プロンプト(自然言語)をCLIPと呼ばれるTransformerのモデルに入力して、埋め込みベクトルに変換します。このベクトル情報をDiffusion Modelに入れてやることで、自分の好きな画像を生成することができます。 無理やりカメラとの対

      Stable Diffusionの内容を理解するための情報・書籍 - karaage. [からあげ]
    • RNNからTransformerまでの歴史を辿る ~DNNを使ったNLPを浅く広く勉強~ - arutema47's blog

      Amazon Prime 一ヶ月無料 Seq2seqからBERTまでのNLPモデルの歴史をざっとまとめる。 DNNは知ってるけどTransformerってなんだかわからない、って人におすすめです。 Abst. 画像認識にもTransformerが使われることが多く、DeepRLやGPT-3といったNLPモデルも身近になってきています。"Attention is 何?"と言えなくなってきたので勉強しました。 Feedforward NetworksからSeq2Seq, Attention機構からTransformer登場、そしてBERT GPTといった最新モデルまでの流れを広く浅く記述する予定。 またKaggle NLPコンペの上位解法から利用例を探る。 Tl;DR TransformerはSelf-Attentionという機構でデータ内の時系列的特徴を抽出でき、従来のRNNを始めとするNN

        RNNからTransformerまでの歴史を辿る ~DNNを使ったNLPを浅く広く勉強~ - arutema47's blog
      • 自動作曲AI Music Transformerの衝撃 - Qiita

        〜AIが名曲を生み出す〜 この音楽を聴いてみてください。 See the Pen MusicTransformerDemo by NayuSato (@nayusato) on CodePen. 埋め込みが見られない場合はここ これはGoogleの自動作曲Music Transformerが生み出した曲の1つです。 入力は、最初の6秒だけ。 クラシックのドビュッシー「月の光」の冒頭6秒だけを与えて、その続きを全て作らせるというタスクを行わせています。 十分聴き入って感動できるような曲に仕上がっています。 ケチをつけられる点がないとは言わないけれど、「人の作った曲です」と言われても識別できないほどの精度になっています。 「Music Transformer」 2018年Googleが発表した自動作曲のAI。 自然言語処理のアルゴリズムであるTransformerを音楽に適用することにより、そ

          自動作曲AI Music Transformerの衝撃 - Qiita
        • より良いTransformerをつくる

          2022年6月 名古屋地区NLPセミナーでのトーク

            より良いTransformerをつくる
          • Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ

            TL;DR TransformersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。 長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。 検出漏れが問題になるようであれば、ストライド付きのwindow処理を追加するのが良い。 サンプル実装: github.com 背景 この記事を目に留めていただいた方にはおそらくおなじみであろう Hugging Face の Transformers *1。 BERT等のTransformer素子ベース事前学習モデルを用いた転移学習が容易に実験できるライブラリである。 最新モデルのモジュールがすごいスピードで実装されることに加えて、事前学習モデルおよび依存するトークナイザが一緒に管理・ダウンロードできる点がご利益として特に大きい。

              Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ
            • ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog

              こちらは「ChatGPT の仕組みを理解する」の後編記事になります。 前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている InstructGPT を説明したいところなんですが、InstructGPT では強化学習の手法を使用しているので、後半記事では一旦自然言語から離れて強化学習の基礎から PPO までを説明し、最後にメインコンテンツである InstructGPT → ChatGPT を説明します。 強化学習の基礎事項 強化学習のモデル化 環境のマルコフ性とマルコフ決定過程(MDP) 価値関数 強化学習手法の分類 価値ベースの強化学習手法 方策ベースの強化学習手法と方策勾配法 アクター・クリティック手法 TRPO [Tr

                ChatGPT の仕組みを理解する(後編) - ABEJA Tech Blog
              • DALL·E mini by craiyon.com on Hugging Face

                Discover amazing ML apps made by the community

                  DALL·E mini by craiyon.com on Hugging Face
                • Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜 | 株式会社AI Shift

                  こんにちは AIチームの戸田です 本記事では前回に引き続き、私がKaggleのコンペティションに参加して得た、Transformerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます 前回は学習の効率化について書かせていただきましたので、今回は精度改善について書かせていただきます データ 前回に引き続きKaggleのコンペティション、CommonLit-Readabilityのtrainデータを使います validationの分け方などは前回の記事を参照していただければと思います 精度改善 一般的なニューラルネットワークモデルの精度改善方法として、ハイパーパラメータのチューニングやData Augmentationが上げられますが、ここではBERTを始めとするTransformerをベースとしたモデル(以降Transformerモデル)特有の工夫について

                    Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜 | 株式会社AI Shift
                  • Jukebox

                    Provided with genre, artist, and lyrics as input, Jukebox outputs a new music sample produced from scratch. Below, we show some of our favorite samples. Automatic music generation dates back to more than half a century.[^reference-1][^reference-2][^reference-3][^reference-4] A prominent approach is to generate music symbolically in the form of a piano roll, which specifies the timing, pitch, veloc

                      Jukebox
                    • Vision Transformerのしくみ

                      初学者向けのTransformerの理解とVision Transformerに関する資料

                        Vision Transformerのしくみ
                      • ChatGPTが実現した夢 | NEWS & BLOG | 株式会社Sigfoss

                        どんな論文かと言うと、大量のドキュメントから自ら学習し、文章の意味するところを定式化された表現に変換する言語モデルを獲得する、つまり自然言語のエンコーダーモデルの学習についての研究の論文です。これ実は私の博士論文のタイトル。 たいした成果も出せずに手仕舞いしてしまった研究ですが、私の博士課程時代の夢は、この数年間で達成されたと言って過言でありません。正直生きているうちにこんなことが実現されるとは思っていなかったので、驚くばかりです。何の話をしているとかと言うと、巷で話題のChatGPTのことであり、もっと正確に言うとその基盤となっているTransformerのことです。(以後、わかりやすくChatGPTとしてしまいます) 少し話を戻しますが、私の研究の出発点は、子どもの母国語の習得課程にありました。子どもは特殊な教育をしなくても周囲からのインプットだけで、数年のうちに母国語を習得することが

                        • 歴代の自然言語処理モデルのスコア推移 - Qiita

                          概要 2013年から2022年に公開された歴代の自然言語処理モデルをGLUEスコアに沿って整理します。 背景 過去に生み出された革新的な技術は、日々、新しいアイデアや技術が公開される現在でも使われています。これまで、自然言語処理界において、ターニングポイントとなったであろう技術を時系列に振り返ろうと思いました。 自然言語処理モデルについて 自然言語処理モデル活用例 一概に自然言語処理モデルと言っても、それが一体何ものなのか理解し難いと思います。 現代社会で自然言語モデルが活用されている事例には以下のようなものがあります。 自動翻訳   :ブラウザの翻訳機能などで、自動的に翻訳してくれます。 文章自動生成 :文章を自動で要約したり、適当な文章を生成してくれます。 チャットボット:企業の問い合わせサイトなどで、質問した内容に答えてくれます。 自然言語処理モデルとしては、直接、翻訳精度上げるよう

                            歴代の自然言語処理モデルのスコア推移 - Qiita
                          • 雑談のためのチャットボットを深層学習自然言語処理モデル(T5)で作る - Qiita

                            はじめに 普段ニュースサイトや機械学習関連のプロダクトを開発している中村と申します。 もともと大学院まで機械学習を研究しており、最近は自然言語処理が流行っているというニュースを聞きつけて、ずっと興味を持っていました。 (会社のお金で機械学習を勉強したいという願いが最近叶いました。) リモートワーク寂しい問題 最近のコロナ禍により、例にもれず弊社もリモートワークが盛んに行われ、現在ではリモートワークが当たり前になっています。 しかし、もちろん業務は円滑に進むのですが、コミュニケーションの量も少なくなることもまた事実。 ただし、チームメンバーの時間を雑談で奪うのも何か気がひける・・・。 こういうときはエンジニアリングの力で解決するのが、エンジニアという生き物ですよね。 そこで、今回は深層学習による自然言語処理モデルで、雑談のためのチャットボットを構築してみます。 深層学習時代の自然言語処理 今

                              雑談のためのチャットボットを深層学習自然言語処理モデル(T5)で作る - Qiita
                            • Introducing Whisper

                              Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. We show that the use of such a large and diverse dataset leads to improved robustness to accents, background noise and technical language. Moreover, it enables transcription in multiple languages, as well as translation from those languages into Eng

                                Introducing Whisper
                              • 「Transformer」後継と期待される「RetNet」活用 PKSHAが日英対応の独自LLMを開発 日本MSも協力

                                AIベンチャー・PKSHA Technology(東京都文京区)は3月28日、「RetNet」技術を活用した日英大規模言語モデル(LLM)を開発したと発表した。RetNetを使用した日英モデルは世界初で、日本マイクロソフトの技術支援により実現。PKSHA Technologyの上野山勝也代表は「これによって生成AIの活用が一段前に進む」と自信を見せる。 左から、PKSHA Communication、PKSHA Workplaceの佐藤哲也代表、PKSHA Technologyの上野山勝也代表、日本マイクロソフト 執行役員 常務 最高技術責任者の野嵜弘倫さん、PKSHA Technology アルゴリズムエンジニア VPoEの森下賢志さん、PKSHA Technology アルゴリズムリードの稲原宗能さん 今回開発したLLMの最大の特徴であるRetNetとは「Retentive Netwo

                                  「Transformer」後継と期待される「RetNet」活用 PKSHAが日英対応の独自LLMを開発 日本MSも協力
                                • CNN vs. ViT

                                  第57回 コンピュータビジョン勉強会@関東 https://kantocv.connpass.com/event/260132/ で読みました。CNNとViTの争いの現時点の情報をお届けしています。ただECCV 2022の論文を読んだのかと言われると怪しい…(ECCV2022の論文「も」読んだというのが正しい)

                                    CNN vs. ViT
                                  • 生成系AIのアナロジー力 - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing

                                    1.4/50 Summilux ASPH, Leica M10P, RAW Midjourney、ChatGPTと立て続けに強烈なアプリケーションが出てきて、Diffusion model(拡散モデル)やtransformer architectureに基づくいわゆるGenerative AI(生成系AI)がそこらで話題だ。ガンガン画像を生み出すことで一気に注目を集めたMidjourneyはクリエーター寄りだけれど、11月末、対話型で答えを返してくれるChatGPT*1が出てきたときに*2、あまりの回答力にDS協会*3のスキル定義委員会でもひとしきり話題になり、僕も自分の研究会の学生たちに「君ら、深く考えずにまずは使い倒したほうがいいよ」と早々にアドバイスした。使わないことには凄さも課題も何もわからないからだ。 すると二週ほど前のゼミで、ある卒業を控えた学生が ChatGPTがないと生きて

                                      生成系AIのアナロジー力 - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing
                                    • Transformerを多層にする際の勾配消失問題と解決法について

                                      【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP

                                        Transformerを多層にする際の勾配消失問題と解決法について
                                      • Transformer Memory as a Differentiable Search Index (NeurIPS 2022)

                                        論文紹介: Transformer Memory as a Differentiable Search Index (NeurIPS 2022) この記事は情報検索・検索技術 Advent Calendar 2022 の 16 日目の記事です. この記事では,NeurIPS 2022 に採択された T5 を用いた検索手法に関する Google Research の論文を紹介します.紹介する論文の情報は以下の通りです. タイトル: Transformer Memory as a Differentiable Search Index 著者: Yi Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuste

                                          Transformer Memory as a Differentiable Search Index (NeurIPS 2022)
                                        • 大規模言語モデルの中身を覗いてみよう / look inside Large Language Models

                                          GMOペパボの新卒エンジニア向け機械学習研修2023における座学の資料です。 機械学習について教師あり学習の考え方は知っている、ぐらいの方を対象に、大規模言語モデル(Large Language Model: LLM)がどのようにテキストを出力して、どのように学習しているかなど解説しています。 (LLMの個々のモデルの詳細やLLMのライブラリなどは対象外です) 研修では、この他にも機械学習自体の初学者向けの座学など、さまざまなコンテンツを実施しました。詳細は以下のブログをご覧ください。 https://rand.pepabo.com/article/2023/06/15/ml-training-report-2023/

                                            大規模言語モデルの中身を覗いてみよう / look inside Large Language Models
                                          • Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用

                                            英Stability AIは2月22日(現地時間)、画像生成機械学習モデルの新版「Stable Diffusion 3.0」の早期プレビューを発表した。新しいアーキテクチャを採用し、画質、マルチサブジェクト・プロンプトの処理、テキスト生成の精度が向上している。22日に早期プレビューのウエイティングリストへの登録受付が始まった。これは、一般公開に先駆けて性能と安全性を向上させるためのフィードバック収集を目的としている。 Stable Diffusion 3は、拡散トランスフォーマー・アーキテクチャにフローマッチングを組み合わせている。Stability AIは2022年8月以降、Stable Diffusion 1.4、1.5、2.0、2.1、XL 1.0、XL Turboを次々にリリースしてきたが、バージョン3.0は既存のモデルの強化版ではなく、アーキテクチャの刷新という点でオリジナル以来

                                              Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用
                                            • Sparse Attentionについて分かりやすく解説!

                                              Transformer[1]の核心となる仕組みであるAttentionは、入力シーケンス内の各トークン間の関連性に基づいて注意の計算を行います。それにより、Transformerは従来の系列処理において主流であったRNNの性能を凌駕する性能を実現し、更には画像処理などの領域でも大きな成果を上げることができました[2]。このように従来のモデルでは成し得なかったような成果を達成できる万能な仕組みであるAttentionですが、その計算コストは入力シーケンス長\(n\)に対して指数関数的に増加するという大きな課題を持ちます。つまり、扱えるシーケンスの長さは計算機のハードウェア性能に大きく影響され、ある程度のシーケンス長を扱うには、高い処理能力と大容量のメモリを持つ計算機が必要となります。そのため、如何にすればAttentionの計算コストを下げることができるのか、計算量を減少させられるかが研究さ

                                                Sparse Attentionについて分かりやすく解説!
                                              • ついに出た!本当にDETR! 物体検出の革新的なパラダイム

                                                3つの要点 ✔️ ついにTransformerを物体検出に応用 ✔️ End-to-endなモデルを実現し、人手による設計を削減 ✔️ 物体検出を直接的な集合予測問題として再定義 End-to-End Object Detection with Transformers written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko (Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3)) Comments: Published by arXiv Subjects: Computer Vision and Pattern Reco

                                                  ついに出た!本当にDETR! 物体検出の革新的なパラダイム
                                                • 言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

                                                  言語処理学会第27回年次大会(NLP2021)ワークショップ:AI王 〜クイズAI日本一決定戦〜 招待講演資料

                                                    言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA
                                                  • BARTを用いた新しい固有表現抽出手法の紹介

                                                    input,output 山田太郎は10月にXX株式会社に入社しました。,山田太郎は人名です。 山田太郎は10月にXX株式会社に入社しました。,10月は時間表現です。 山田太郎は10月にXX株式会社に入社しました。,XX株式会社は組織名です。 山田太郎は10月にXX株式会社に入社しました。,10月にXXは固有表現ではありません。 山田太郎は10月にXX株式会社に入社しました。,入社しましたは固有表現ではありません。 山田太郎は10月にXX株式会社に入社しました。,山田太郎は10月は固有表現ではありません。 加藤部長は昨日つけ麺を食べました。,加藤は人名です。 …… 学習 やっていることはすごく単純で、先ほど作ったデータセットのinputの文を入力としてoutputの文を出力するようにBARTを学習します。 推論 推論するときは全てのスパンでそれぞれテンプレートを埋めてみて、どれが一番しっく

                                                      BARTを用いた新しい固有表現抽出手法の紹介
                                                    • 【日本語モデル付き】2020年に自然言語処理をする人にお勧めしたい文ベクトルモデル - Qiita

                                                      2023/03/20 追記 Studio Ousia様によるLUKEモデルをベースに学習したSentence-LUKEモデルを公開しました。 Sentence-LUKEモデル: https://huggingface.co/sonoisa/sentence-luke-japanese-base-lite 手元の非公開データセットでは、日本語Sentence-BERTモデル(バージョン2)と比べて定量的な精度が同等〜0.5pt程度高く、定性的な精度は本モデルの方が高い結果でした。 2021/12/14 追記 MultipleNegativesRankingLossを用いて学習した改良版モデルを公開しました。 改良版(バージョン2)のモデル: https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens-v2 手元の非公開デー

                                                        【日本語モデル付き】2020年に自然言語処理をする人にお勧めしたい文ベクトルモデル - Qiita
                                                      • RWKVについて解説

                                                        本記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。 はじめに 自然言語処理の分野において、Transformer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransformerが登場しました。しかし、Transformerにも解決すべき問題が存在しています。そこで、これらのアプローチを結びつけて進化させていく必要が出てきました。 まず、RNNの利点と欠点を見てみましょう。RNNは、文章の長さにほとんど制約がなく、計算コストも比較的小さいという利点があります。しかし、以前の入力を正確に記憶することが難しく(長期依存性を捉えられない)、学習を高速化することも難しい(学習並列化が困難)という欠点も存在します。 一方、Transformerは長期依存性を捉え

                                                          RWKVについて解説
                                                        • GPTを超える大規模言語アーキテクチャ「Hyena」とは何か?

                                                          GPTを超える大規模言語アーキテクチャ「Hyena」とは何か?:清水亮の「世界を変えるAI」(1/2 ページ) 3月7日、刺激的なブログがHazy Researchから投稿された。新しい大規模言語モデルHyena(ハイエナ)の登場だ。 Hazy Researchはスタンフォード大学とモントリオール大学による共同の研究チームだ。特に深層学習の世界ではトップ研究者として知られ、コンピュータ業界におけるノーベル賞に相当するチューリング賞受賞者であるヨシュア・ベンジオ博士も論文に名を連ねていることから話題になっている。 現在、広く使われているのはGPT-3やChatGPTといったいわゆる「Transformer(トランスフォーマー)」というモデルだ。「Transformer」は、並列化がしやすく大規模な学習に向いているという特徴を持っている。GPTも、実は「Generative Pre-train

                                                            GPTを超える大規模言語アーキテクチャ「Hyena」とは何か?
                                                          • ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita

                                                            ざっくり理解する分散表現, Attention, Self Attention, Transformer機械学習DeepLearningAttentionbertTransformer はじめに 自己紹介 : Pythonでデータ分析とかNLPしてます。 Attention, Self Attention, Transformerを簡単にまとめます。 間違いがあったらぜひコメントお願いします。 モチベーション BERT(Google翻訳で使われてる言語モデル)を理解したい。 BERT : 双方向Transformerを用いた言語モデル。分散表現を獲得でき、様々なタスクに応用可能。 Transformer : Self Attentionを用いたモデル。CNNとRNNの進化系みたいなもの。 Self Attention : Attentionの一種。 Attention : 複数個の入力の内

                                                              ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita
                                                            • これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2|shi3z

                                                              Transformerという手法は必ずしも万能でも効率的でもない。 むしろTransformerは非効率的だというのが一般的な見解だ。しかし、Transformerには実績があり、実績という壁の前には多少(かどうかわからないが)の非効率は無視される。 他にもHyenaなどもっと効率的と思われる手法が提案されているが、そうした提案の一つがRWKVである。 そもそもなぜTransformerが必要になったかというと、それまで言語モデルに用いられていたRNN(Recurrent Neural Network)は並列処理が難しかったからだ。並列処理が難しい理由は簡単で、言葉というのは過去から未来へ向かって一方向に進むからである。 言語モデルは全て「この文章に続く単語は何か」を予測し、それを連鎖的に繰り返していくが、RNNは単語をひとつひとつ選んでいかないと次の単語を原理的に予測できない。 これを並

                                                                これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2|shi3z
                                                              • TransformerをAI進化の流れと共にわかりやすく解説!Attention層に至るまで|スタビジ

                                                                「Transformer(トランスフォーマー)」の概要をザックリ解説Transformerとは、「Attention Is All You Need」という論文で2017年に発表されたディープラーニングのモデルです。 以下、「Attention Is All You Need」の引用になります。 The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose

                                                                  TransformerをAI進化の流れと共にわかりやすく解説!Attention層に至るまで|スタビジ
                                                                • 計算時間とメモリの壁を打破!Transformerの次世代モデルReformer

                                                                  3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya (Submitted on 13 Jan 2020 (v1), last revised 18 Feb 2020 (this version, v2)) Comments: ICLR 2020 Subjects: Machine Learning (cs.L

                                                                    計算時間とメモリの壁を打破!Transformerの次世代モデルReformer
                                                                  • Scaled Dot-Product Attentionの本当の凄さを考える

                                                                    近年、機械学習分野で大きな成果をあげているTransformer[1]において、その中核をなすScaled Dot-Product Attention[1]には、革新的な仕組みが備わっています。その仕組みとは、後で詳しく説明しますが、入力に応じて重みを動的に変えることが可能なニューラルネットワークで、これにより驚くほど広範囲で膨大な情報に対する適応性と表現力を実現することができます。本記事では、Scaled Dot-Product Attentionのこの仕組みとその利点について解説し、私なりの解釈を紹介できればと思います。 先に結論を簡単に まず、結論から説明すると、Scaled Dot-Product Attentionは、入力に基づいて重みを変えることが可能なニューラルネットワークという解釈が可能です。ただし、Scaled Dot-Product Attentionは学習パラメータを

                                                                      Scaled Dot-Product Attentionの本当の凄さを考える
                                                                    • OpenAI Sora に使われる技術

                                                                      TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

                                                                        OpenAI Sora に使われる技術
                                                                      • https://e2eml.school/transformers.html

                                                                        • 2019年はBERTとTransformerの年だった | AI専門ニュースメディア AINOW

                                                                          著者のManu Suryavansh氏は機械学習エンジニアとしてキャリアを積んだ後、2020年1月からAppleでデータサイエンティストとして勤めています。同氏がMediumに投稿した記事『2019年はBERTとTransformerの年だった』では、近年の自然言語処理の動向がBERTを中心軸としてまとめられています。 TransformerとBERTが発表される以前の自然言語処理モデルでは、時系列データを処理するRNNとその発展形であるLSTMが使われてきました。このLSTMには、構造が複雑になってしまうという欠点がありました。こうしたなか、2017年6月に発表された論文「Attentionこそ必要なすべてのもの」で論じられた言語モデルTransformerとAttentionと呼ばれる手法は、LSTMのような複雑な構造を使わずに高性能を実現したのでその後の言語モデル開発に大きな影響を与

                                                                            2019年はBERTとTransformerの年だった | AI専門ニュースメディア AINOW
                                                                          • BERTを超えたXLNetの紹介

                                                                            概要https://arxiv.org/abs/1906.08237 XLNetは2019/6/19に、”XLNet: Generalized Autoregressive Pretraining for Language Understanding”と題してArxivに投稿された論文です。一言(?)でいうと Transformer-XLを単語の順序を入れ替えた(元の順序情報は保持)もので学習させることで、自己回帰モデルで双方向の意味依存関係を取得できるようにしたと主張。20を超えるタスクでBERT超え。 といったところでしょうか。この記事では、背景となる関連技術も含めてXLNetの着想と技術について順々に説明していきます。 自然言語処理のタスク学習の流れと事前学習の種類深層学習を用いた自然言語処理は翻訳、QAタスク、文書分類など多岐にわたります。 深層学習でそれらのタスクを解く際は、タス

                                                                              BERTを超えたXLNetの紹介
                                                                            • Transformerを用いてオノマトペから環境音を合成する手法をPyTorchで実装した(Transformer版 Onoma-to-Wave) - 備忘録

                                                                              はじめに 事前準備 実装の概要 環境音合成実験 実験条件 実験結果 実装の舞台裏など おわりに はじめに 以前、Onoma-to-Waveを実装した記事を書いたことがあった: tam5917.hatenablog.com Onoma-to-Waveとはオノマトペ(文字列)を環境音(スペクトログラム)に変換するモデルである。RNNに基づくencoderとdecoderから構成されており、いわゆるSequence-to-Sequence(Seq2Seq)の構造を持つ。 それらをTransformerによって置き換えたモデルが、Onoma-to-Waveの著者らによって実はすでに提案されている。 岡本 悠希,井本 桂右,高道 慎之介,福森 隆寛,山下 洋一,"Transformerを用いたオノマトペからの環境音合成," 日本音響学会2021年秋季研究発表会,pp. 943-946,2021. 上

                                                                                Transformerを用いてオノマトペから環境音を合成する手法をPyTorchで実装した(Transformer版 Onoma-to-Wave) - 備忘録
                                                                              • GiNZA v5のTransformerモデルによる固有表現抽出 | 株式会社AI Shift

                                                                                こんにちは AIチームの戸田です 今回は日本語NLPライブラリであるGiNZAのv5から実装されたTransformerモデルによる固有表現抽出を試します。 固有表現抽出とは、入力となる自然文から地名や製品名などの固有名詞を抽出するタスクです。今回固有表現抽出に使用するデータセットとして、ストックマーク株式会社が作成したWikipediaを用いた日本語の固有表現抽出データセットを使用します。また、Transformerモデルは処理に時間がかかるので、環境はGoogle ColaboratoryのGPU環境を利用しました。 事前準備 wgetを使ってデータセットをダウンロードします。 wget https://raw.githubusercontent.com/stockmarkteam/ner-wikipedia-dataset/main/ner.json 必要なpythonライブラリをダ

                                                                                  GiNZA v5のTransformerモデルによる固有表現抽出 | 株式会社AI Shift
                                                                                • 著者陣の視点からVision Transformer入門の執筆の背景と書評を書きます - Seitaro Shinagawaの雑記帳

                                                                                  こんにちは、品川です。Vision Transformer入門という本の執筆に参加しました。いよいよ本格的な販売がはじまります。どんな本なのか注目してくださってる方もいらっしゃると思うので、著者陣の一人の視点から執筆の背景と書評を少しだけ書こうと思います。 gihyo.jp 執筆の背景 書評 第1章 TransformerからVision Transformerへの進化 第2章 Vision Transformerの基礎と実装 第3章 実験と可視化によるVision Transformerの探求 第4章 コンピュータビジョンタスクへの応用 第5章 Vision and Languageタスクへの応用 第6章 Vision Transformerの派生手法 第7章 Transformerの謎を読み解く 第8章 Vision Transformerの謎を読み解く 手薄になっている内容 執筆の背

                                                                                    著者陣の視点からVision Transformer入門の執筆の背景と書評を書きます - Seitaro Shinagawaの雑記帳