並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 390 件 / 390件

新着順 人気順

Transformerの検索結果361 - 390 件 / 390件

  • Ryobot | りょぼっとさんのツイート: "Transformer を懇切丁寧に図解してる.すごい https://t.co/7Hyri4RS4m ちなみに PyTorch 実装の解説ならコレが綺麗 https://t.co/IEiyl0Sjfp… "

    Transformer を懇切丁寧に図解してる.すごい https://t.co/7Hyri4RS4m ちなみに PyTorch 実装の解説ならコレが綺麗 https://t.co/IEiyl0Sjfp https://t.co/czqXZwa72P

      Ryobot | りょぼっとさんのツイート: "Transformer を懇切丁寧に図解してる.すごい https://t.co/7Hyri4RS4m ちなみに PyTorch 実装の解説ならコレが綺麗 https://t.co/IEiyl0Sjfp… "
    • TensorFlow Transformer モデルを高速化するには | Google Cloud 公式ブログ

      ※この投稿は米国時間 2023 年 4 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。 近年注目を集めている Transformer モデルは、自然言語処理(NLP)の進歩に大きく寄与してきました。Transformer モデルは多くの場合、機械翻訳、テキスト要約、ドキュメント分類などのさまざまなユースケースで、再帰型ニューラル ネットワークに代わる存在になっています。Transformer モデルを本番環境にデプロイして推論を行うことは、組織にとって困難な場合もあります。それは、推論が高価であり、実装が複雑であるためです。このたび Google は、Vertex AI Prediction サービス上の TensorFlow(TF)モデルのサービングを最適化する、新しいランタイムの公開プレビュー版を発表しました。そして最適化された TensorFlow ラ

        TensorFlow Transformer モデルを高速化するには | Google Cloud 公式ブログ
      • The Transformer Family Version 2.0

        Date: January 27, 2023 | Estimated Reading Time: 46 min | Author: Lilian Weng Many new Transformer architecture improvements have been proposed since my last post on “The Transformer Family” about three years ago. Here I did a big refactoring and enrichment of that 2020 post — restructure the hierarchy of sections and improve many sections with more recent papers. Version 2.0 is a superset of the

        • GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

          Neural network scaling has been critical for improving the model quality in many real-world machine learning applications with vast amounts of training data and compute. Although this trend of scaling is affirmed to be a sure-fire approach for better model quality, there are challenges on the path such as the computation cost, ease of programming, and efficient implementation on parallel devices.

          • Transformerとは?数学を用いた徹底解説:Encoder編 - Qiita

            Transformerとは Transformerは、NLPで主に使用される深層学習アーキテクチャの一つです。Transformerが出現した後、様々なタスクに活用されていたRNNとLSTMはTransformerに置き換えられました。そしてBERT, GPT, T5などのNLPモデルにTransformerアーキテクチャが適用されました。 この記事ではTransformerの基本的な意味から構造まで説明します。この記事、Encoder編で扱うTransformer内容は次の2件です。 Transformerの全体的な構造紹介 TransformerのEncoder理解 そしてDecoder編では続いて次の3つの主題を取り上げます。 TransformerのDecoder理解 EncoderとDecoderの結合 Transformerの学習 この記事ではコードを用いた説明は行いません。数

              Transformerとは?数学を用いた徹底解説:Encoder編 - Qiita
            • 【川端祐一郎】「鏡」としての人工知能――我々はChatGPTに何を学び得るのか | 表現者クライテリオン

              地に足の着かないAI論 表現者クライテリオン最新号の特集テーマは「SDGs/AI批判序説」というもので、私は「AIの知能観――シンギュラリティ論に惑わされないために」という記事を書いています。思想誌でAI(人工知能)批判というと、 「AIが人間に追いつくことはない」 「AIの安易な導入には弊害がある」 というような内容を想像する人もいるかも知れませんが、私が言いたいのはそういうことではありません。AIの周辺では「言葉の定義」も「現存する技術との対応関係」も定かでない言説が飛び交いがちで、礼讃論と懐疑論のいずれも地に足が着いていないと感じることが多いので、まずは現代の人工知能技術の特徴を大まかにでも確認して頭を冷やしたほうがよいのではないかという話です。 また、AIが話題に上ると、すぐ「機械が人間に追いつき、追い越すことは可能なのか」という議論をしたくなる人は多いと思うのですが、そもそも「追

              • Text2Light

                Text2Light: Zero-Shot Text-Driven HDR Panorama Generation TOG 2022 (Proc. SIGGRAPH Asia) Abstract High-quality HDRIs (High Dynamic Range Images), typically HDR panoramas, are one of the most popular ways to create photorealistic lighting and 360-degree reflections of 3D scenes in graphics. Given the difficulty of capturing HDRIs, a versatile and controllable generative model is highly desired, whe

                  Text2Light
                • 【Techの道も一歩から】第26回「BERTで日本語固有表現抽出器を作ってみた」 - Sansan Tech Blog

                  こんにちは。DSOC 研究開発部の高橋寛治です。 流行りの BERT(Bidirectional Encoder Represenations from Transformers) ですが、論文を読んだあと、マスク部分を当てるというサンプルを動かしその的確さに驚いたところで、手が止まっていました。 今回は、BERTの特徴である優れた言語モデルを利用して、日本語固有表現抽出器を作ってみました。 その手順をいくつかかいつまんで紹介します。 準備から学習 BERT の実装には、 Hugging Face, Inc. が提供する transformers ライブラリを利用します。 実装は、固有表現抽出のサンプルに準じて行います。 transformers ライブラリは、例によって pip install transformers で完了します。素晴らしい。 ディレクトリ構成のイメージ data デ

                    【Techの道も一歩から】第26回「BERTで日本語固有表現抽出器を作ってみた」 - Sansan Tech Blog
                  • Amazon.co.jp: トランスフォーマー デヴァイスレーベル デヴァイス グリムロック Operating OPTICAL MOUSE: Toy

                    男の子向き 対象年齢 : 15歳から

                      Amazon.co.jp: トランスフォーマー デヴァイスレーベル デヴァイス グリムロック Operating OPTICAL MOUSE: Toy
                    • 小猫遊りょう(たかにゃし・りょう) on Twitter: "今年1月にOpenAIが発表した激ヤバなニューラルネット「DALL-E」の論文がとうとう公開された。開発者も予想していなかった多種多様な画像を作り出すことができる。高い抽象度で珍しい概念を構成する能力も確認。さらに、画像から画像へ… https://t.co/Tz0h4MbfSM"

                      今年1月にOpenAIが発表した激ヤバなニューラルネット「DALL-E」の論文がとうとう公開された。開発者も予想していなかった多種多様な画像を作り出すことができる。高い抽象度で珍しい概念を構成する能力も確認。さらに、画像から画像へ… https://t.co/Tz0h4MbfSM

                        小猫遊りょう(たかにゃし・りょう) on Twitter: "今年1月にOpenAIが発表した激ヤバなニューラルネット「DALL-E」の論文がとうとう公開された。開発者も予想していなかった多種多様な画像を作り出すことができる。高い抽象度で珍しい概念を構成する能力も確認。さらに、画像から画像へ… https://t.co/Tz0h4MbfSM"
                      • Spark NLPでTransformerモデルをスケールする - GMOインターネットグループ グループ研究開発本部

                        こんにちは、T.Y.です。並列分散処理のフレームワークであるSpark上で自然言語処理(Natural Language Processing, NLP)の様々なタスクを行いたい、特に、BERTやGPTなどのTransformerモデルの学習や推論を試したいという動機のもとでSpark NLPについて調べた内容をこちらのブログで解説します。環境構築の過程でSparkからGPUを使用するための手順や、SparkとGPUを利用する他の機械学習フレームワークについても紹介したいと思います。 目次 Summary クラスタ構成 Spark Rapids XGBoost4j-Spark-GPU Spark NLP ChatGPTとテストしてみる Fine-tuningについて Sample Model Spark NLP Displayによる可視化 Synapse ML 最後に 1. Summary

                          Spark NLPでTransformerモデルをスケールする - GMOインターネットグループ グループ研究開発本部
                        • GitHub - google-research/robotics_transformer

                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                            GitHub - google-research/robotics_transformer
                          • What Are Transformer Models and How Do They Work?

                            Introducing Command R+: Our new, most powerful model in the Command R family. Learn More

                              What Are Transformer Models and How Do They Work?
                            • Jamba: A Hybrid Transformer-Mamba Language Model

                              We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is added in some of these layers to increase model capacity while keeping active parameter usage manageable. This flexible architecture allows reso

                              • 🤖Transformer学習用おすすめサイトまとめ - Qiita

                                はじめに 初めまして、ktakumi_fishです。 最近話題のchatGPT(Generative Pretrained Transformer)の中心技術である「Transformer」を学習した際に参考にしたサイトを今後学習する方のためになればと思い記録しておこうと思います。 初級者向け 【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説 非常にわかりやすいサイトです。Transformerについて全く知らない人でもなんとなく理解できるのではないかと思います。 Deep Learning入門:Attention(注意) Transformerに使用されている技術であるAttentionについてわかりやすく説明してくれるYoutube動画です。特にkey,query,valueの概念についてわかりやく説明していただけていると感じました。 深層学習による自然言

                                  🤖Transformer学習用おすすめサイトまとめ - Qiita
                                • ◆ 言語 AIの急激な発展: Open ブログ

                                  ChatGPT のような言語AIが急激な発展を遂げている。それはどうしてか? ── ChatGPT のような言語AIが急激な発展を遂げている。それも、ここ数カ月ぐらいの間に、あちこちの研究所でいっせいにそうなっている。技術的な発展というのは、通常はなだらかな変化を遂げるものだが、この変化はあまりにも急激だ。人類が過去の歴史上においてなし遂げたことのすべてを、一挙に跳躍してしまうような急激さだ。それはいわば、猿から人間への進化をたったの数カ月でなしてしまうような急激さだ。……では、それはどうしてか? このことは大きな謎だが、その理由がおおまかに推察できた。以下の話は、必ずしも絶対的に真理だという保証はないのだが、十分に納得できる話だと思うので、興味があれば読んでほしい。 ── まず、大規模で急激な進歩があったことについては、下記の項目で説明されている。 → ChatGPTを筆頭に信じられない

                                  • ICLR 2022 Spotlight: Demystifying local attention and dynamic depth-wise convolution - Microsoft Research

                                    In the past two years, there have been numerous papers written on Transformer, and researchers are designing Transformer models for all kinds of tasks. However, is attention, the core module of Transformer, really stronger than convolution? This paper may bring to you a new perspective. Researchers from Microsoft Research Asia have looked into local attention and dynamic depth-wise convolution and

                                      ICLR 2022 Spotlight: Demystifying local attention and dynamic depth-wise convolution - Microsoft Research
                                    • How AI Transformers Mimic Parts of the Brain | Quanta Magazine

                                      Understanding how the brain organizes and accesses spatial information — where we are, what’s around the corner, how to get there — remains an exquisite challenge. The process involves recalling an entire network of memories and stored spatial data from tens of billions of neurons, each connected to thousands of others. Neuroscientists have identified key elements such as grid cells, neurons that

                                        How AI Transformers Mimic Parts of the Brain | Quanta Magazine
                                      • Google QUEST Q&A Labeling の反省文 - guchiBLO はてな

                                        本記事の概要 kaggle の NLP コンペである Google QUEST Q&A Labeling に参加し、その社内反省会を主催したので、その時の資料をブログに落としておきます。筆者は 1,571 チーム中 19 位でした。 shake 力たりんかったか... pic.twitter.com/L4bJGp5oil— ぐちお (@ihcgT_Ykchi) February 11, 2020 NLP コンペには初めて参加してのですが、系列データを NN でさばく上での学びが多く非常に楽しめました。個人的には良いコンペだったと感じていて、コンペ終了後にはブログ化する方々*1や勉強会を開催する方々がいつもより気持ち多かったような気がします。 一方で、post-process のスコアへの寄与度が大きすぎたこと等に起因する苦言も散見されてはいました。*2 本記事の概要 コンペ概要と基礎知識

                                          Google QUEST Q&A Labeling の反省文 - guchiBLO はてな
                                        • GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale
                                          • piqcy on Twitter: "Transformerの速習ができるスライド。メリット・デメリットから基本ブロックの解説、学習形式までコンパクトにまとめられている。 https://t.co/pPd3Yplk0O"

                                            Transformerの速習ができるスライド。メリット・デメリットから基本ブロックの解説、学習形式までコンパクトにまとめられている。 https://t.co/pPd3Yplk0O

                                              piqcy on Twitter: "Transformerの速習ができるスライド。メリット・デメリットから基本ブロックの解説、学習形式までコンパクトにまとめられている。 https://t.co/pPd3Yplk0O"
                                            • Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

                                              Recently, non-recurrent architectures (convolutional, self-attentional) have outperformed RNNs in neural machine translation. CNNs and self-attentional networks can connect distant words via shorter network paths than RNNs, and it has been speculated that this improves their ability to model long-range dependencies. However, this theoretical argument has not been tested empirically, nor have alter

                                              • How to Train a BERT Model From Scratch

                                                BERT, but in Italy — image by authorMany of my articles have been focused on BERT — the model that came and dominated the world of natural language processing (NLP) and marked a new age for language models. For those of you that may not have used transformers models (eg what BERT is) before, the process looks a little like this:

                                                  How to Train a BERT Model From Scratch
                                                • GitHub - lucidrains/DALLE-pytorch: Implementation / replication of DALL-E, OpenAI's Text to Image Transformer, in Pytorch

                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                    GitHub - lucidrains/DALLE-pytorch: Implementation / replication of DALL-E, OpenAI's Text to Image Transformer, in Pytorch
                                                  • Google BrainのSwitch Transformer言語モデル、16兆個のパラメータに到達

                                                    Google Brainの研究者たちは、より大きく、より良いものを追求し続ける中で、新たに提案したSwitch Transformer言語モデルを、計算コストを抑えながら1.6兆個のパラメータにまでスケールアップした。研究チームは、Mixture of Experts (MoE) ルーティングアルゴリズムを単純化し、データ、モデル、専門家の並列性を効率的に組み合わせ、この「法外な数のパラメータ」を可能にした。 最近の多くのシンプルなディープラーニングアーキテクチャは、より複雑なアルゴリズムよりも優れた性能を発揮していますが、このような性能向上には膨大な計算予算、膨大なデータセット、膨大なパラメータ数が必要となる。研究チームは、ディープラーニングモデルはすべての入力に対して同じパラメータを再利用する傾向があるのに対し、Mixture of Experts (MoE)モデルは異なるパラメータを

                                                      Google BrainのSwitch Transformer言語モデル、16兆個のパラメータに到達
                                                    • https://www.sbert.netindex.html/

                                                      • Recent Advances in Language Model Fine-tuning

                                                        Fine-tuning a pre-trained language model (LM) has become the de facto standard for doing transfer learning in natural language processing. Over the last three years (Ruder, 2018), fine-tuning (Howard & Ruder, 2018) has superseded the use of feature extraction of pre-trained embeddings (Peters et al., 2018) while pre-trained language models are favoured over models trained on translation (McCann et

                                                          Recent Advances in Language Model Fine-tuning
                                                        • TabPFN - Qiita

                                                          初めに このシリーズでは、機械学習や数理最適化などの数理モデルのざっくりとした理論と実装コードを紹介します. 今回紹介するのは,TabPFNというテーブルデータのためのTransformerモデルです.論文では「小さな表形式データに対して1秒以内に教師あり分類タスクを実行でき,ハイパーパラメータのチューニングがいらない高精度のモデル」と紹介されています.精度としてはOpenML-CC18というデータセットの中の30個のデータセットでGBDTの性能を上回ったほか,AutoMLに対して同等の精度を70倍の速度で達成したそうです. 論文:TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second 目次 1. 概要 2. ざっくり理論 3. 実装 4. おわりに 5. 参考文献 1. 概要

                                                            TabPFN - Qiita
                                                          • Transformers4Rec: A flexible library for Sequential and Session-based recommendation

                                                            Recommender systems help users to find relevant content, products, media and much more in online services. They also help such services to connect their long-tailed (unpopular) items to the right people, to keep their users engaged and increase conversion. Traditional recommendation algorithms, e.g. collaborative filtering, usually ignore the temporal dynamics and the sequence of interactions when

                                                              Transformers4Rec: A flexible library for Sequential and Session-based recommendation
                                                            • Kaggle「CommonLit Readability Prize」コンペ25位の振り返りと上位解法まとめ - u++の備忘録

                                                              8月2日に終了したKaggle「CommonLit Readability Prize」コンペにチームで参加し、25位でした。 3682チーム参加で、17位までが金メダル圏内で、もう一歩という結果でした。 コンペ概要 チームでの取り組み 上位解法 全体共通の傾向 1位 2位 3位 4位 5位 6位 9位 12位 13位 14位 15位 16位 コンペ概要 英語の文章の「読みやすさ」の値を-3から3程度の範囲(大きいほど読みやすい)*1で予測する問題でした。 正解の値は、2つの文章の比較結果を利用する「Bradley–Terry model」*2で付けられていたそうです*3。 推論時は文章単体に対してスコアを予測する必要がありました。 データセットのサイズは小さく、学習用データセットが約3000で、評価用データセットが2000*4以下でした。 与えられたデータセットのカラムは、以下の通りです

                                                                Kaggle「CommonLit Readability Prize」コンペ25位の振り返りと上位解法まとめ - u++の備忘録