Transformerの人気記事 320件 - はてなブックマーク

1 - 40 件 / 320件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Transformerの検索結果1 - 40 件 / 320件

Transformerに関するエントリは320件あります。 AI、機械学習、 ChatGPT などが関連タグです。人気エントリには『GPT-3の衝撃 - ディープラーニングブログ』などがあります。

GPT-3の衝撃 - ディープラーニングブログ
- 1602 users
- deeplearning.hatenablog.com
- テクノロジー
- 2020/07/21
この1週間はGPT-3のユースケースの広さに驚かされる毎日でした．シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので，勢いで書くことにしました． GPT-3はOpenAIが開発した言語生成モデルです．名前の由来であるGenerative Pretrained Transformerの通り，自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています．先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され，様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています．特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め，誇大広告気味だと警鐘を鳴らす事態に発展しています． This is mind blowing. With GPT-3, I built
- AI
- 機械学習
- あとで読む
- GPT-3
- deeplearning
- 学習
- NLP
- IT
- 自然言語処理
- api
GPTの仕組みと限界についての考察（１） - conceptualization
- 1519 users
- isobe324649.hatenablog.com
- テクノロジー
- 2023/03/21
GPT4が登場してChatGPTが盛り上がってますね。本記事は、GPT（を支えるTransformerという仕組み）をChatGPTユーザにとって分かりやすく説明し、その能力と限界についての見通しをよくしよう、という趣旨になります。少し長くなりそうなので、全部で記事を3回に分けようと思います。（１）大まかな背景と概要：本記事（２）GPTの能力と可能性：実際の使用例とTransformerの仕組みを踏まえて説明（３）GPTの限界と未来展望：Transformerの仕組みが持つ限界と研究の進展を予想 GPT3と4の違い：トークン長とは何か？まずここから話を始めます。GPT-3は、パラメータ数が750億個（850GBの容量を食う）でトークン長が4097(GPT-3.5)でした。GPT-4は、パラメータ数は非公開でトークン長は32768ですので、ちょうど8倍になります。さて、トーク
- ChatGPT
- AI
- あとで読む
- 機械学習
- GPT
- 研究
- 技術
- 人工知能
- technology
- 考察
ChatGPT使い方総まとめ - Qiita
- 1009 users
- qiita.com/sakasegawa
- テクノロジー
- 2022/12/01
こんにちは！sakasegawaです！ ( https://twitter.com/gyakuse ) 今日は今流行のChatGPTについて紹介します！ ChatGPTとは OpenAIが開発するGPT-3(※)というめちゃくちゃすごい言語モデルをベースとしたチャットアプリです。色んな質問にすぐ答えてくれます。この記事ではさまざまな使い方を紹介します。 https://chat.openai.com/ ちなみにGPT-3関連では、noteの以下記事も便利なのでぜひ読んでみてください AIがコミットメッセージ自動生成！神ツール『auto-commit』『commit-autosuggestions』の紹介 ※正確にはGPT-3.5シリーズと呼ばれています ChatGPTの仕組みを考えながらプロンプトを作る手法はこちらに別途まとめています文章質問-応答〜について教えて Wikiped
- AI
- ChatGPT
- あとで読む
- 機械学習
- 文章
- webサービス
- まとめ
- ツール
- Qiita
- GPT
GPT-1→GPT-2→GPT-3→GPT-3.5→ChatGPT→GPT-4までの進化の軌跡と違いをまとめてみた｜スタビジ
- 907 users
- toukei-lab.com
- テクノロジー
- 2023/04/05
当サイト【スタビジ】の本記事では、昨今のAIの進化のきっかけになっているGPTシリーズについてまとめていきたいと思います。GPT-1から始まりGPT-2、GPT-3、そしてChatGPTであるGPT-3.5、GPT-4と進化してきました。この進化の軌跡と違いについて解説していきます。こんにちは！データサイエンティストのウマたん(@statistics1012)です！この記事では最近のAIブームの火付け役になったGPTシリーズについて簡単にまとめていきたいと思います。
- AI
- ChatGPT
- あとで読む
- 学習
- 機械学習
- GPT
- 勉強
- 歴史
- データ
- GPT-4

パナソニックコネクトの｢社内ChatGPT｣全社導入。1カ月使い倒して見えてきた成果とは
- 865 users
- www.businessinsider.jp
- テクノロジー
- 2023/04/12
パナソニックのB2Bソリューション子会社パナソニックコネクトが、国内1万2500人の全従業員にChatGPT相当の機能を備えた、独自の社内AI｢ConnectGPT｣を提供すると公表したことが産業界で注目を集めている。国内大手では｢使用禁止｣を通達する企業もあるなかで、ChatGPT導入事例として先進的だ。さらに、実際に社内への浸透も進んでいるというのが興味深い。日本企業はいかにChatGPTを｢業務｣で使い、生産性を高められるのか。導入から1カ月あまり経った時点のデータをもとに、パナソニックコネクトに可能性を取材した。
ChatGPTの生みの親、サム・アルトマンが語る「AIと検索と資本主義の未来」 | Forbes JAPAN 公式サイト（フォーブスジャパン）
- 695 users
- forbesjapan.com
- テクノロジー
- 2023/02/08
急成長するジェネレーティブAI分野でここ最近、最も注目され、最も議論を呼んでいるスタートアップがサンフランシスコを拠点とする「OpenAI（オープンAI）」だ。フォーブスは、1月中旬に同社の共同創業者でCEOを務めるサム・アルトマンにインタビューを行い、同社の人工知能（AI）チャットボット「ChatGPT」の最新の動向や、AIツールがグーグルの検索ビジネスにもたらす脅威について質問した。 ──ChatGPTの人気ぶりや、収益化の推進、Microsoft（マイクロソフト）との提携などの状況を見ていると、ジェネレーティブAIのカテゴリーは今、転換点に差しかかっているように見えます。あなたの立場から、OpenAIはそのプロセスのどこにいると感じていますか？今は確かにエキサイティングな時期だと思いますが、私としてはこれがまだ、きわめて初期の段階にあることを望んでいます。社会に前向きなインパクトを
- AI
- あとで読む
- ChatGPT
- 社会
- 未来
- 検索
- 技術
- technology
- 言語
- インタビュー
大規模言語モデルの驚異と脅威
- 635 users
- speakerdeck.com/chokkan
- テクノロジー
- 2023/03/28
2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを（Research Preview版ではあるが）無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転換点となり得ることは、驚異的なことである。本講演では、ChatGPTがベースにしているInstructGPTを中心に、大規模言語モデルやプロンプト、人間のフィードバックによる強化学習などの技術を概観する。また、ChatGPTのような生成型の人工知能が社会やビジネス、学術にもたらす脅威について述べる。 https://aip.riken.jp/sympo/sympo202303/
- AI
- ChatGPT
- あとで読む
- 機械学習
- LLM
- NLP
- 自然言語処理
- GPT
- 言語
- アルゴリズム
AI の次の重要な一歩
- 585 users
- blog.google
- テクノロジー
- 2023/02/07
AI は、Google が現在取り組んでいる中で最も本質的なテクノロジーです。AI は、医師による病気の早期発見の支援や、自国語での情報へのアクセスなど、人々、ビジネス、コミュニティの潜在能力を引き出します。そして、数十億人の生活を大きく改善できる新しい機会を提供します。6 年前から、私たちが Google の方向性を AI 中心に再編し「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」という Google のミッションを果たす最も重要な方法に AI を据えているのは、これが理由です。以来、私たちは全面的に AI への投資を継続し、Google AI と DeepMind のチームは最先端のテクノロジーを進化させています。現在、AI の計算規模は半年ごとに倍増していますが、それはムーアの法則よりもはるかに早いペースです。同時に、高度なジェネラティブ AI と大規模言語モ
- AI
- google
- あとで読む
- 人工知能
- LaMDA
- Bard
- ChatGPT
- seo
- メディア
GPTの仕組みと限界についての考察（2.1） - conceptualization
- 556 users
- isobe324649.hatenablog.com
- テクノロジー
- 2023/03/27
全３回のシリーズパート２の本記事では、GPTの能力と可能性をAttention/Transformerの仕組みをふまえて考察します。というつもりでしたが、凄く長くなってしまったのでパート2は以下の3回に分けようと思います。（2.1）各技術の定性的な説明（本記事）（2.2）Transformerのアルゴリズム詳細（2.3）GPTの能力と可能性について 2.1 各技術の定性的な説明自然言語の構造を考えてみるまず我々が使う言語についてちょっと振り返るところから話を始めましょう。文や文章は、おおもとのデータである文字から始まって、単語、文節、句、節、文、文章、さらにその上の意味、という風に階層的な構造を持っていると我々は概念的に認識してますよね。構文の階層そして、各階層や階層間には、文法や語法といった言葉のルールがあります。深層学習はその名の通り、層を深くしたニューラルネットワ
- ChatGPT
- あとで読む
- AI
- 機械学習
- 自然言語処理
- GPT
- 技術
- 学習
- 人工知能
- 科学
【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ
- 554 users
- www.sbbit.jp
- テクノロジー
- 2023/09/27
第1回は、さまざまなタスクをこなす万能型ジェネレーティブAIツール「ChatGPT」の性能の鍵を握る「トークン長（GPTが文脈を意識できる過去の単語数）」やGPTの歴史的経緯について解説しました。第2回はGPTを支える自然言語処理の分野で使用される深層学習モデル「Transformer」とその根幹となる「Attention機構（そのタスクにおいてどの単語の重要度が高く、注目すべきか決める仕組み）」についてです。TransformerとAttention機構の仕組みを定性的に把握し、それを踏まえてGPTの能力と可能性について考察したいと思います。テクノロジー領域に明るくない人でもわかる記事を目指します。
- ChatGPT
- あとで読む
- AI
- 機械学習
- 文章生成AI
- GPT
- 人工知能
- 学習
- techfeed
- 考察
30分で完全理解するTransformerの世界
- 546 users
- zenn.dev/zenkigen_tech
- テクノロジー
- 2023/02/14
はじめに初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。深層学習界隈では、2017年に衝撃的なタイトル（Attention Is All You Need）の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま
- 機械学習
- あとで読む
- Transformer
- AI
- 学習
- 自然言語処理
- 勉強
- algorithm
- deeplearning
- ChatGPT
GWに徹底理解！GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開 | Ledge.ai
- 537 users
- ledge.ai
- テクノロジー
- 2024/04/28
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
- AI
- あとで読む
- ChatGPT
- GPT
- 動画
- ツール
- 便利
- 無料
- 勉強
- IT
GPTの仕組みをちゃんと勉強したい本 - きしだのHatena
- 507 users
- nowokay.hatenablog.com
- テクノロジー
- 2023/04/25
やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。まず理論的な概要。機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山英樹,二反田篤史,田村晃裕,井上中順,牛久祥孝サイエンス社Amazon で、もういきなり作る。トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる
- GPT
- あとで読む
- AI
- ChatGPT
- 本
- 学習
- 人工知能
- 文章生成AI
- ライブラリ
- Transformer
Self-Attentionを全面的に使った新時代の画像認識モデルを解説！ - Qiita
- 485 users
- qiita.com/omiita
- テクノロジー
- 2020/08/31
08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします！(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ
(数式を使わない) Transformer の直感的な説明 / 真面目なプログラマのためのディープラーニング入門
- 449 users
- euske.github.io
- テクノロジー
- 2023/02/26
(数式を使わない) Transformer の直感的な説明 RNN の欠点 Transformer はこれをどう解決したか Transformer の動作原理複数の要素間の関係を考慮する (Self-Attention、自己注意) 要素の順序を考慮する (Positional Encoding、位置エンコーディング) まとめ概要: ChatGPT などで使われている Transformer モデルは、ニューラルネットワークの世界にいくつかの革新的なアイデアをもたらした。本記事では、プログラマに理解しやすい形でそれらのアイデアを解説する。実際に使われている数学の詳細には触れない。 (技術的解説については元論文 Attention is All You Need か、その注釈版である The Annotated Transformer を参照のこと。日本語ではこの解説がわかり
画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説！ - Qiita
- 444 users
- qiita.com/omiita
- テクノロジー
- 2020/10/12
0. 忙しい方へ完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ画像パッチを単語のように扱うよアーキテクチャはTransformerのエンコーダー部分だよ巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。入力画像アーキテクチャ事前学習とファインチューニングそれぞれについて見ていきましょう。 1.1 入力画像まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、
- 機械学習
- AI
- あとで読む
- 画像
- 画像処理
- 画像認識
- Transformer
- 学習
- qiita
- Deep Learning
驚異の1ビットLLMを試す。果たして本当に学習できるのか?｜shi3z
- 442 users
- note.com/shi3zblog
- テクノロジー
- 2024/02/29
昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装
- LLM
- AI
- あとで読む
- BitNet
- 機械学習
- 学習
- 人工知能
- 技術
- Microsoft
- 研究
機械学習の進化が、「レンズ」というカメラの当たり前を覆す次世代イメージセンシング・ソリューション開発を加速
- 435 users
- www.titech.ac.jp
- テクノロジー
- 2022/05/13
要点最先端機械学習モデル「Vision Transformer」に基づく、新たなレンズレスカメラの画像再構成手法を提案提案した画像処理技術は高速に高品質な画像を生成できることを実証小型・低コストかつ高機能であるため、IoT向け画像センシング等への活用に期待概要東京工業大学工学院情報通信系の潘秀曦（Pan Xiuxi）大学院生（博士後期課程3年）、陈啸（Chen Xiao）大学院生（博士後期課程2年）、武山彩織助教、山口雅浩教授らは、レンズレスカメラの画像処理を高速化し、高品質な画像を取得できる、Vision Transformer（ViT）[用語1]と呼ばれる最先端の機械学習技術を用いた新たな画像再構成手法を開発した。カメラは通常、焦点の合った画像を撮影するためにレンズを必要とする。現在、IoT[用語2]の普及に伴い、場所を選ばず設置できるコンパクトで高機能な次世代カメラが
- 機械学習
- あとで読む
- カメラ
- 技術
- 画像
- AI
- レンズ
- camera
- 写真
- 画像処理
ChatGPTのコア技術「GPT」をざっくり理解する - Qiita
- 387 users
- qiita.com/ksonoda
- テクノロジー
- 2023/06/01
※本記事はOracleの下記Meetup「Oracle Big Data Jam Session」で実施予定の内容です。 ※セミナー実施済の動画に関しては以下をご参照ください。本記事の対象者これから機械学習を利用した開発をしていきたい方機械学習のトレンド技術を知りたい方なるべく初歩的な内容から学習したい方はじめに Transformerの登場以降、著しい技術革新が続くここ数年、特にOpenAI社のChatGPTのサービス開始以降、おびただしい数の技術ブログや記事がインターネット上に存在する中、本記事に目を留めていただいてありがとうございます。この勉強会では、専門用語や難解な公式を極力排除し、初学者の方々を対象に、「そもそも自然言語の機械学習ってどういうもの？」、「言語モデルって要するに何？」というところからGPTをざっくり理解することを目的としています。従って、本記事に記載のあ
- ChatGPT
- あとで読む
- アルゴリズム
- GPT
- AI
- 技術
- 機械学習
- 言語
- 学習
- 統計
【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
- 322 users
- qiita.com/mohki7
- テクノロジー
- 2024/02/17
Transformer 深層学習モデル以前の言語モデルの課題言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。（LLM資料p.8参照）ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。ニューラル言語モデルしかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN（Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。（勾配消失＆単語間の長距離依存性の把握が困難） RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし
- LLM
- あとで読む
- AI
- 学習
- ChatGPT
- 資料
超巨大高性能モデルGPT-3の到達点とその限界. この記事では、超巨大言語モデルGPT-3の技術的な解説、GPT-3達成したことと… | by akira | Jul, 2020 | Medium
- 319 users
- medium.com/@akichan_f
- テクノロジー
- 2020/07/24
この記事についてこの記事ではGPT-3[1]の解説をします。内容のサマリは以下の通りです。 GPT-3の前身であるGPT-2では、巨大なデータセット＋巨大なネットワークで言語モデルを構築し、各タスクで学習させなくても良い結果が得られた。GPT-3では、さらに巨大なデータセット＋さらに巨大なネットワークで言語モデルを構築し、数十のサンプルを見せると凄く良い結果が得られた一方、様々なタスクに言語モデルのスケールアップのみで対応することへの限界が見えてきた。人種、性別、宗教などへの偏見の問題や、悪用に対する課題もある。この記事の流れは以下の通りです。 Transformer, GPT-2の説明GPT-3のコンセプトと技術的な解説GPT-3ので上手くいくタスクGPT-3で上手くいかないタスク偏見や悪用への見解 Transformerまず、GPT-3の前身となったGPT-2に入る前に、その中に使われ
- 機械学習
- GPT-3
- あとで読む
- NLP
- deeplearning
- AI
- deep learning
- 自然言語処理
- 言語
- gpt
【AI動画生成】Sora 要素技術解説
- 308 users
- zenn.dev/mattyamonaca
- テクノロジー
- 2024/02/17
もう全部OpenAIでいいんじゃないかなはじめに月間技術革新です。ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。原文を見たい方はこちらからどうぞ全体構成 Soraは以下の技術要素で構成されているとのこと
- AI
- あとで読む
- 動画
- 技術
- OpenAI
- StableDiffusion
- GPT
- 学習
- 論文
話題爆発中のAI「ChatGPT」の仕組みにせまる！ - Qiita
- 294 users
- qiita.com/omiita
- テクノロジー
- 2022/12/12
オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介しています。 @omiita_atiimoもご覧ください！話題爆発中のAI「ChatGPT」の仕組みにせまる！注意：ChatGPTはまだ論文が出ていないため、細かい箇所は不明です。本記事では公式から出た記事およびInstructGPTの論文をもとにChatGPTの仕組みを探っていきます本記事の流れ: 忙しい方へ ChatGPTとは GPT-3 InstructGPT ChatGPT まとめと所感参考 0. 忙しい方へ ChatGPTは、InstructGPTをベースとしたモデルだよ InstructGPTは、「人間の好みに合った文を出力するように微調整したGPT-3」だよ InstructGPTの学習では、以下の3つが重要だよ GPT-3の教師ありファインチューニング Reward Modelの学習 RLHF（＝Re
- AI
- ChatGPT
- あとで読む
- 機械学習
- 言語
- 学習
- 人工知能
- qiita
- ML
- 自然言語処理
ChatGPTなど数々の高性能AIを生み出した仕組み「Attention」についての丁寧な解説ムービーが公開される
- 289 users
- gigazine.net
- テクノロジー
- 2024/04/16
さまざまな数学的トピックをムービー形式で解説するサイト「3Blue1Brown」において、ChatGPTに代表されるAIを形作っている「Transformer」構造の心臓部「Attention(アテンション)」についての解説が行われています。 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning https://www.3blue1brown.com/lessons/attention AIの中身と言える大規模言語モデルのベースとなる仕事は「文章を読んで次に続く単語を予測する」というものです。文章は「トークン」という単位に分解され、大規模言語モデルではこのトークン単位で処理を行います。実際には単語ごとに1トークンという訳ではありませんが、3Blue1Brownは単純化して
- AI
- あとで読む
- ChatGPT
- 人工知能
- チュートリアル
- 機械学習
- 数学
- tutorial
- 勉強
- 解説
中国版chatGPTが「言ってはいけないこと」を口にして開始3日で終了 - ナゾロジー
- 286 users
- nazology.net
- テクノロジー
- 2023/02/17
正直すぎるのはAIもダメなようです。中国の新興企業「Yuanyu Intelligence」社は先日、中国版chatGPTとして会話型AI「ChatYuan」のリリースを行いました。「ChatYuan」もchatGPTと同じく本物の人間のように言葉をあやつり、人間の問いかけに答えたり、自らの意見のようなものを述べることが可能です。しかし一般向けの利用開始からわずか3日で「ChatYuan」はサービスを終了してしまいました。かつての「ChatYuan」ページには「関連する法律、規則、ポリシーへの違反が疑われるためにサービスを停止しました」とのメッセージが表示されています。何があったのか大体の想像はつくかもしれませんが、これは中国だからと笑っていられない問題かもしれません。今回は前半でなぜ世界中の大企業が会話型AIの開発に必死になっているかを説明しつつ、会話型AIの登場で浮き彫りと
- AI
- 中国
- あとで読む
- ChatGPT
- china
- 人工知能
- 技術
- 海外
- 社会
- 機械学習
225行のコードでGPTの仕組みを理解する
- 286 users
- zenn.dev/hijikix
- テクノロジー
- 2023/08/27
概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字（単語ではないことに注意）予測機を作成するというものです。この動画で完成するコードは以下で、225行しかなくとても読みやすいです。また短いですがtransformerのエッセンスが詰まっていて勉強になりそうです。このコードを読み解くことでGPTやtransformerがどのように動いているのか、ざっくり理解してみようと思います。ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo
- LLM
- あとで読む
- ChatGPT
- AI
- 機械学習
- transformer
- 自然言語処理
- programming
- Python
https://twitter.com/yoshipon0520/status/1529441377725325313
- 257 users
- twitter.com/yoshipon0520
- テクノロジー
- 2022/05/25
【図解】誰でもわかるTransformer入門！凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM
- 239 users
- nlpillustration.tech
- テクノロジー
- 2023/02/03
始めにこんにちは！自然言語処理（NLP）・自然言語生成（NLG）の解説記事を書いている、すえつぐです！突然ですが、BERT、GPT-3、PaLMを使ったことはありますか？Transformerはこれらの最先端のモデルに使用されている、現代のNLPモデルには欠かせないモデルです。おそらくBERTやGPT-3でTransformerを知った、このページに来たという人も多いのではないでしょうか。機械学習、特にNLPの勉強をしている方々は、Transformerの概要は知っておいた方が良いと思います。ただ多くのサイトは、いきなり細かい仕組みの解説をする中級者以上向けの記事が多いですよね。そこで、このページでは、Transformerの入門〜中級までの解説をしていきます！まず入門として、「Transformerの使い道」「Transformerの何が凄いのか？」を先に解説します。その上で「T
- 機械学習
- あとで読む
- 自然言語処理
- NLP
- Transformer
- BERT
- AI
- 勉強
- 入門
- プログラミング
「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ
- 238 users
- tjo.hatenablog.com
- テクノロジー
- 2023/10/21
先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か？」を公開しました。論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twitter.com/nUXb4bGiQ3— GO Inc. AI Tech (@goinc_ai_tech) 2023年9月28日なるほど、NN全盛というかNN一択の時代にあっては時系列予測もNNでやるのが当たり前になったのだなという感想でした。大昔「沖本本」で古典的な計量時系列分析を一通り学んだ身としては隔世の感がありますが、これもまたNN時代の趨勢なのでしょう。なお、元論文2点は上記リンクから辿
- 機械学習
- あとで読む
- AI
- 時系列分析
- 時系列
- 論文
- データ
- 学習
- 統計
- 勉強
ChatGPTを探す旅に出させていただきます | DevelopersIO
- 236 users
- dev.classmethod.jp
- テクノロジー
- 2023/04/09
文書の数が多い場合、単語の種類(ボキャブラリ)も多くなり単語の次元が大幅に増えていきます。一方、一つの文書に含まれる単語の数には限りがあるため、これは全体として疎行列になります。また、単語が各次元として扱われますが、文書ごとの出現順序など、単語間での関連性を示す情報は抜け落ちたものとなります。それに対して低次元(通常数百次元程度)の密な行列で単語の意味を定義する方法があります。これは、「分散表現」や「埋め込み表現」と言われるものになっております。この表現を獲得するため手法は様々なものがありますが、ここではWord2Vecを紹介します。元論文 : Efficient Estimation of Word Representations in Vector Space 具体的な実装についての解説 : word2vec Parameter Learning Explained Wor
Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6％をたたき出す「phi-1」を発表
- 229 users
- gigazine.net
- テクノロジー
- 2023/06/22
LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット・HumanEvalでGPT-3.5を上回る成績を収めたことが報告されています。 [2306.11644] Textbooks Are All You Need https://doi.org/10.48550/arXiv.2306.11644 Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa https://analyticsindiama
- AI
- Microsoft
- あとで読む
- 人工知能
- LLM
- 機械学習
- 技術
- ChatGPT
- 学習
- techfeed
速報：話題の 1ビットLLMとは何か？｜寺田英雄（㈱オープンストリームCTO）
- 228 users
- note.com/3d_vizionist
- テクノロジー
- 2024/03/02
2024-02-27にarXiv公開され，昨日（2024-02-28）あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「１ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c
- AI
- あとで読む
- LLM
- 論文
- 人工知能
- 学習
- GPT
- microsoft
- 研究
- 文章
OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ
- 228 users
- deeplearning.hatenablog.com
- テクノロジー
- 2021/01/05
OpenAIはGPT-3の次の研究を始めています．世間がGPT-3のデモに湧き上がる中，OpenAIはScaling Lawに関する2本の論文をひっそりと公開しました． Scaling Lawを一言で説明するなら「Transformerの性能はたった3つの変数のべき乗則に支配されている」というものです． Scaling Lawはそれ単体だけなら興味深い話で終わるかもしれません．実際に英語圏でもあまり話題にあがっていません．しかし，この法則の本当の凄さに気づいている研究者もいて，なぜ話題にならないのか困惑しています． I am curious why people are not talking more about the OpenAI scaling law papers. For me, they seem very significant. What I heard so far:
- 機械学習
- AI
- deeplearning
- 論文
- あとで読む
- NLP
- ml
- モデル
- 理論
- GPT
フリーで使える日本語の主な大規模言語モデル（LLM）まとめ
- 227 users
- zenn.dev/hellorusk
- テクノロジー
- 2021/10/29
ありがとうございます！実は私本人がそのモデルの構築に関わっているのですが、詳細はまだ言えない状況です...。来年3月の言語処理学会年次大会(NLP2023)での続報をお待ちください！このモデルに関する論文が公開される予定です（一応それを待ってからこの記事にも掲載します）。（私が書いたものではありませんが、現段階で公開できる情報をまとめた記事があります: https://note.com/utokyo_itc/n/nb18b2a753f23 ）
- BERT
- 自然言語処理
- nlp
- 機械学習
- あとで読む
- 言語
- 開発
- 日本語
- LLM
- 勉強
数式を使わないTransformerの解説（前編） - conceptualization
- 218 users
- isobe324649.hatenablog.com
- テクノロジー
- 2023/03/22
2023/3/23 追記：こちら半年以上前に執筆したもので、その後私の理解も進んで内容的に更新したいところが結構あるため、近日中に非公開とさせていただき,更新後に再公開させていただくつもりです。現時点での本記事の内容は、大きく間違ってはいないけどちらほら微妙なところがあるという感じです。（ざっくり理解するだけでも良いという人にはそれでも良いかもしれませんが、そういう方向けには今執筆中のこちらの記事をおすすめします。） −−−− 最近話題のmidjourneyやDALL-E、凄いですよね。中身はディープラーニング（DNN）のようです。DNNといっても色んな技術がありますが、それらにはTransformerという手法が使われています。本記事は、その手法がどんなものであるかを数式を使わずに説明してみよう、という主旨になります。 ※なお本記事は機械学習のプロの研究者ではない私の独自の解釈が
- 機械学習
- あとで読む
- AI
- アルゴリズム
- DeepLearning
- ChatGPT
- 人工知能
- 数学
- pc
- 考え方
「危険すぎる」と言われたAIの自動文章作成ツール「GPT-2」のモデルが新たに公開へ
- 212 users
- gigazine.net
- テクノロジー
- 2019/08/21
by duallogic AIによる文章生成ツール「GPT-2」はあまりにも高度な文章が作成できることから、「危険すぎる」と判断され公開が延期されていました。2019年2月に小型モデル、5月に中型モデルと、段階的に公開されていたGPT-2でしたが、新たに7億4700万個のパラメーターを持つより大きなモデルが公開されています。 GPT-2: 6-Month Follow-Up https://openai.com/blog/gpt-2-6-month-follow-up/ GPT_2_August_Report.pdf (PDFファイル)https://d4mucfpksywv.cloudfront.net/GPT_2_August_Report.pdf OpenAIは2019年2月にテキスト生成用のAIモデル「GPT-2」を開発しましたが、あまりにも高度な文章が作成されてしまうため、「悪用
- AI
- あとで読む
- 文章
- 機械学習
- 人工知能
- ツール
- 自然言語処理
- NLP
- gigazine
自然なブログを書いてしまうほど超高精度な言語モデル「GPT-3」はどのように言葉を紡いでいるのか？
- 207 users
- gigazine.net
- テクノロジー
- 2020/07/29
OpenAIが開発する「GPT-3」は、ほとんど違和感のないブログ記事を生成できてしまうほど高い精度を誇る言語モデルです。そのGPT-3がテキストを生成する仕組みについて、オンライン学習プラットフォーム「Udacity」でAIや機械学習関連の講座を持つJay Alammar氏が解説しています。 How GPT3 Works - Visualizations and Animations – Jay Alammar – Visualizing machine learning one concept at a time. https://jalammar.github.io/how-gpt3-works-visualizations-animations/ The Illustrated GPT-2 (Visualizing Transformer Language Models) – Ja
- GPT-3
- 機械学習
- あとで読む
- AI
- 言語
- 自然言語処理
- 学習
- 自然言語
- GPT
- ブログ
Anond AI開発日記 - Hatena Developer Blog
- 199 users
- developer.hatenastaff.com
- テクノロジー
- 2023/04/02
こんにちは。Anond AIを研究している id:cockscomb です。私たちはこの度、このAI時代を制するプロダクト、Anond AIを開発しました。本エントリではその詳細について説明します。 Anond AIとは Anond AIはいわゆるGenerative AIで、人類が匿名で日記を書くことをアシストしてくれるものです。私たちは日記に芸術性を感じる文化を持っていて、「日記文学」という言葉もあります。Generative AIによって、名前を隠して楽しく日記を書くことをサポートし、匿名日記文化のさらなる発展に寄与できないか、と考えました。 Anond AIは、rinna/japanese-gpt2-mediumをはてな匿名ダイアリーのデータを用いてファインチューニングし、ドメイン適応させたものです。 Anond AIの開発 Anond AIは実験的なプロダクトのため、Hatel
- AI
- はてな
- あとで読む
- 人工知能
- 文章
- 機械学習
- 開発
- anond
- 言語
- tech
Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 - Qiita
- 195 users
- qiita.com/oddgai
- テクノロジー
- 2023/02/18
Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話作ったもの DLsiteの新作音声作品をクローリング -> 好みかどうか推論 -> 好みならSlack通知をするシステムを完全サーバーレス（AWS SAM）で構築しました。さらなる精度向上のため、Slackメッセージのボタンをもとに教師データを蓄積する処理も作りました。デモ（ぼかしMAX）とてもわかりにくいですが、好みであろう作品がPOSTされているSlackの画面です。各メッセージについている「興味あり！」「別に…」ボタンを押すとLambdaが起動し、DynamoDBに新たな教師データとして保存されます。なぜ作ったのか DLsiteが好き、以上。・・・もう少し真面目に書くと、会社でテキストデータに触れることが多いので、うまく扱えるようになりたい音声作品はシチ
- AI
- あとで読む
- 機械学習
- aws
- slack
- 人工知能
- Serverless
- 音声
- Transformer
- qiita
2022年の深層学習ハイライト - Qiita
- 190 users
- qiita.com/shionhonda
- テクノロジー
- 2023/02/12
はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事（2021年、2020年、2019年）もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,