並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 4861件

新着順 人気順

Transformerの検索結果1 - 40 件 / 4861件

  • GPT-3の衝撃 - ディープラーニングブログ

    この1週間はGPT-3のユースケースの広さに驚かされる毎日でした. シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので,勢いで書くことにしました. GPT-3はOpenAIが開発した言語生成モデルです.名前の由来であるGenerative Pretrained Transformerの通り,自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています. 先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され,様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています. 特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め,誇大広告気味だと警鐘を鳴らす事態に発展しています. This is mind blowing. With GPT-3, I built

      GPT-3の衝撃 - ディープラーニングブログ
    • GPTの仕組みと限界についての考察(1) - conceptualization

      GPT4が登場してChatGPTが盛り上がってますね。 本記事は、GPT(を支えるTransformerという仕組み)をChatGPTユーザにとって分かりやすく説明し、その能力と限界についての見通しをよくしよう、という趣旨になります。 少し長くなりそうなので、全部で記事を3回に分けようと思います。 (1)大まかな背景と概要:本記事 (2)GPTの能力と可能性:実際の使用例とTransformerの仕組みを踏まえて説明 (3)GPTの限界と未来展望:Transformerの仕組みが持つ限界と研究の進展を予想 GPT3と4の違い: トークン長とは何か? まずここから話を始めます。GPT-3は、パラメータ数が750億個(850GBの容量を食う)でトークン長が4097(GPT-3.5)でした。GPT-4は、パラメータ数は非公開でトークン長は32768ですので、ちょうど8倍になります。 さて、トーク

        GPTの仕組みと限界についての考察(1) - conceptualization
      • 最近ローカルLLMがアツいらしい

        最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し

        • userAgent一覧

          ブラウザの判別や携帯の機種判別に利用するためのユーザーエージェント一覧です。ただし、ユーザーエージェントは詐称(偽物)される場合があるため、完全にユーザーエージェントでブラウザなどの判別ができるわけではありません(詐称の方法のページを参照)。ここに掲載されているものは、このサーバーなどに対してアクセスしてきたユーザーエージェント名などを抽出したものなどです。あまりに古いブラウザおよびマイナーなブラウザに関してはアクセスログがないため掲載できていません。 [トップページに戻る] ■iPhone ●iOS Mozilla/5.0 (iPhone; U; CPU like Mac OS X; en) AppleWebKit/420+ (KHTML, like Gecko) Version/3.0 Mobile/1C28 Safari/419.3 ●iOS2 Mozilla/5.0 (iPhone

          • ChatGPT使い方総まとめ - Qiita

            こんにちは!sakasegawaです! ( https://twitter.com/gyakuse ) 今日は今流行のChatGPTについて紹介します! ChatGPTとは OpenAIが開発するGPT-3(※)というめちゃくちゃすごい言語モデルをベースとしたチャットアプリです。 色んな質問にすぐ答えてくれます。 この記事ではさまざまな使い方を紹介します。 https://chat.openai.com/ ちなみにGPT-3関連では、noteの以下記事も便利なのでぜひ読んでみてください AIがコミットメッセージ自動生成!神ツール『auto-commit』『commit-autosuggestions』の紹介 ※正確にはGPT-3.5シリーズと呼ばれています ChatGPTの仕組みを考えながらプロンプトを作る手法はこちらに別途まとめています 文章 質問-応答 〜について教えて Wikiped

              ChatGPT使い方総まとめ - Qiita
            • 働きながらアメリカの大学院でCS修士号を取った - k0kubun's blog

              4年前に会社の福利厚生を使ってスタンフォードの授業を取ってみたら面白く、 働きながらでも続けられそうだなという実感を得たので、 2年後、受験を経てジョージア工科大学にリモートで通い始めた。 そして先日、ジョージア工科大学からコンピュータサイエンス修士号をいただくことができた。 画像の学位記は卒業式イベント用の非公式のもので、1~2か月すると Masterとちゃんと書いてある本物が来るらしい *1 。 After 1 year and 9 months, I graduated from Georgia Tech and got a master's degree in computer science. It was intense to be a student while working full-time, but I learned a lot. pic.twitter.com/J

                働きながらアメリカの大学院でCS修士号を取った - k0kubun's blog
              • 自宅作業が多い方にオススメ!IKEA で作った快適自宅オフィス – Zero4Racer PRO Developer's Blog

                概観 追記:2013/9/16 引っ越して作った新しいオフィスの記事はこちら4畳半のスペースにIKEAで作った!見えるところにものを置かない、快適ホームオフィス空間 | Zero4Racer PRO Developer’s Blog 追記:2015/8/14 さらに改善した新しいオフィスの記事はこちらIKEAの家具で作った!スタンディングで作業できるヘルシーホームオフィス | 先日、IKEAに行って、かねてから作りたかった自宅オフィスを作ることが出来たので出来た結果を備忘をかねて共有します。皆様の自宅オフィス作りに役立てていただければと思います。 iPad と Mac を使って快適に文章を書く環境についても書きました!これは便利!iPadとMacで実現する快適物書き環境 « Zero4Racer PRO Developer’s Blog よろしければご覧ください。 リビングにIKEAで作る

                • 松尾研 LLM講座 講義コンテンツ | 東京大学松尾研究室 - Matsuo Lab

                  松尾研究室が2023年9~10月に東京大学サマースクールで開催した LLM 大規模言語モデル講座のコンテンツを無償公開しています。 本講座は約2,000名の受講者が参加し、全7回の講義を実施しました。 最終課題としてGPUを使ったコンペティションでは約800名が参加し熱戦を繰り広げました。 現在、講義のスライドのみ公開しております。 ダウンロードは利用規約を確認の上、下記からダウンロードをお願いいたします。 最終更新: 2024年2月10日 問題・フィードバック報告フォームはこちら 第1回:Overview of Language Models LLMの概要、今後の各回の講義の概要、および日本のLLM開発状況について 第2回:Prompting and Augmented Language Model 事前学習済みLLMを追加学習せずに活用する技術(プロンプティング、⽂脈内学習、Augme

                    松尾研 LLM講座 講義コンテンツ | 東京大学松尾研究室 - Matsuo Lab
                  • 社内勉強会で生成AIについて発表したので70ページの資料を公開する! - Qiita

                    前置き 毎週金曜日夕方に行われる社内勉強会にて、先日生成AIについて発表しました。折角なので少し加筆修正した資料を公開します。進化のスピードが早く、一時期食傷気味に陥ってましたが改めて昨今の生成AI関連の基本となるインプットを目指しました。 ※資料内冒頭に記載してますが、AIの専門家ではないので認識や説明に誤りがある可能性があります。 当方も勉強中なので、「ここ違うよ」や「これの説明もあるといいんじゃない」など様々なコメント大歓迎です! 資料 資料目次 AIの基本 機械学習について 深層学習について 機械学習の種類 教師あり学習の得意なこと 教師あり学習のイメージ 教師なし学習の得意なこと 教師なし学習のイメージ 強化学習の得意なこと 生成AIについて 生成AIとは 生成AIの位置付け 生成AI利用例 代表的なサービス例 日本における盛り上がり 生成AI市場規模 AGIとは AGIは近い?

                      社内勉強会で生成AIについて発表したので70ページの資料を公開する! - Qiita
                    • TechCrunch

                      Apple seems to be finally getting serious about infusing generative AI into its products — both internal and external — after announcing a solitary “Transformer” model-based autocorrec

                        TechCrunch
                      • ChatGPTのおさらいと、プログラミングに活用するための第一歩 | gihyo.jp

                        大量の文章から学習することで、多言語を取り扱う能力だけでなく、高度な推論能力まで手に入れました。 GPT-3.5、とりわけその初期モデルのCodexはGitHubに存在する5400万の公開リポジトリから採取された159GBのPythonコードでGPT-3をfine-tuning(微調整)することで生まれました。ChatGPTがとりわけPythonが得意なのはここから来ています。 ChatGPTの学習データを考えることはその能力を発揮させるときに極めて有効です。質問時も以下のように、『⁠涼宮ハルヒの憂鬱』というライトノベル作品について日本語で聞いたときはSOS団の略称を間違えるなどしますが、英語ではほぼ期待通りの回答を見せます。 図1 『ハルヒの憂鬱』について日本語で聞いた場合の回答 図2 『ハルヒの憂鬱』について英語で聞いた場合の回答 知ったかぶりをするChatGPT ところで、ChatG

                          ChatGPTのおさらいと、プログラミングに活用するための第一歩 | gihyo.jp
                        • GPT-4時代のエンジニアの生存戦略 - Qiita

                          GPT-4時代のエンジニアの生存戦略 ※ この記事の内容の一部はこちらのイベントでお話したことと重複します。 はじめに 2023年3月1日にOpenAI社よりChatGPTのAPIが公開されました。 さらに14日にはGPT-4が登場し、その翌々日にはMicrosoft 365 CopilotでGPT-4をOffice製品に搭載することが発表されるなど、AI領域で大きな変化が起きています。 変化の速度の速さと変化量の大きさにより、私自身も追いつくのが精一杯な状態です。 個人的には、iPhoneの登場時以上の衝撃を受けています。 人類の歴史上、過去3回AIブームがありました。Generative AIが4回目のブームになります。 そして、特に日本においては顕著なのですが、AIへの過度な期待とそれへの失望の繰り返しがここ数十年にわたって繰り返されてきました。 直近だと数年前のDeep Learn

                            GPT-4時代のエンジニアの生存戦略 - Qiita
                          • 4Gamer.net ― Eee PC発売記念(?) この小さいマシンでゲームを動かしてみよう――その1:Windows XPを頑張って小さくしてみる(Eee PC)

                            Eee PC発売記念(?) この小さいマシンでゲームを動かしてみよう――その1:Windows XPを頑張って小さくしてみる 編集長:Kazuhisa 派手なところは一切ないが,値段の割には質実剛健。2台目のマシンとして非常にお勧めだ ※第2回:Windows XPを頑張って軽快にしてみる → 「こちら」 ※第3回:FFXIも完璧! ついにゲームの起動にトライ → 「こちら」 発表されるやいなや一気に「小さいものフェチ」の心を奪った,ASUSTeK Computer(以下,ASUSTeK)のノートPC「Eee PC」。日本でもついに4万9800円というプライシングで発表され(Windows XP導入済),通信端末にしようとか出先でYouTubeを見よう(?)とかゲームもできるといいなぁとか,色々と心を躍らせている人も多いことだろう。 〜この小さいマシンでゲームを動かしてみよう〜 ・冒頭 ・

                              4Gamer.net ― Eee PC発売記念(?) この小さいマシンでゲームを動かしてみよう――その1:Windows XPを頑張って小さくしてみる(Eee PC)
                            • コード進行、フレーズ生成、リズム作成…、初心者からプロまで作曲を効率よく行うための高性能・高機能ツール、RapidComposer|DTMステーション

                              音楽制作ツールには、Cubase、Studio One、FL Studio…のように汎用性の高いDAWソフトのほかにも、マスタリングに特化したソフトや波形編集に特化したもの、最近ではAI作曲機能が強力なものなどがあります。そうした中、それらとはまたちょっと異なるアプローチで、、作曲という部分に特化した音楽制作ツールもあります。その一つが、ハンガリーのソフトウェアメーカーであるMusicDevelopmentsのRapidComposerというWindowsでもMacでも使えるソフトです。 もともと2010年に誕生したこのソフトは、コード進行の作成やフレーズの生成にフォーカスしており、作曲における作業を効率よくこなせて、アイディア出しにも使えるツールとして進化してきた歴史があります。最新バージョンは4.7となっていますが、RapidComposerは国内に代理店がないこともあり、日本のDTM

                                コード進行、フレーズ生成、リズム作成…、初心者からプロまで作曲を効率よく行うための高性能・高機能ツール、RapidComposer|DTMステーション
                              • iPhone Dev Center 日本語リファレンス

                                ウィジェットとライブアクティビティ ウィジェットがさらに多くの場所で活用できるようになり、パワーアップしました。WidgetKitを使ってインタラクティブな要素やアニメーションによるトランジションに対応すると、ユーザーがウィジェットから直接アクションを実行できます。既存のウィジェットにわずかな変更を加え、iOS 17向けに再ビルドするだけで、iPhoneのスタンバイ画面、iPadのロック画面、Macのデスクトップ上で視覚的に美しく表示させることができます。SwiftUIを使用すると、ウィジェットの色と間隔がコンテキストに合わせて自動調整されるため、複数のプラットフォームで使いやすさが増します。 WidgetKitとActivityKitで構築したライブアクティビティがiPadで利用できるようになり、ユーザーはアプリのアクティビティや情報をロック画面からいつでもリアルタイムで確認できます。

                                  iPhone Dev Center 日本語リファレンス
                                • シンギュラリティは来ない - きしだのHatena

                                  ChatGPTが思いがけずいろいろなことを人間より賢くやっているのを見てシンギュラリティという言葉を使う人が増えたように思いますが、逆に、シンギュラリティは来ないのではという思いを強くしています。 まず、この文章でのシンギュラリティがなにかという話ですが、レイ・カーツワイルが「シンギュラリティは近い」の1章の終わりで「さあ、これが特異点だ」といっている特異点、そのシンギュラリティです。 シンギュラリティは近い―人類が生命を超越するとき 作者:レイ・カーツワイルNHK出版Amazon この特異点は単にAIが人間より賢くなるというだけではありません。人間より賢くなるだけだと、便利な道具が増えるだけなので、大騒ぎするほどの変化は起きません。人の仕事を奪うといっても、蒸気機関ほどでもないですね。印刷機などと並んで、人の生活を変える転換点にすぎず、ただひとつの点をあらわすシンギュラリティには なりま

                                    シンギュラリティは来ない - きしだのHatena
                                  • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

                                    (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

                                      エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
                                    • 図解Stable Diffusion

                                      ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生

                                        図解Stable Diffusion
                                      • AI の次の重要な一歩

                                        AI は、Google が現在取り組んでいる中で最も本質的なテクノロジーです。AI は、医師による病気の早期発見の支援や、自国語での情報へのアクセスなど、人々、ビジネス、コミュニティの潜在能力を引き出します。そして、数十億人の生活を大きく改善できる新しい機会を提供します。6 年前から、私たちが Google の方向性を AI 中心に再編し「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」という Google のミッションを果たす最も重要な方法に AI を据えているのは、これが理由です。 以来、私たちは全面的に AI への投資を継続し、Google AI と DeepMind のチームは最先端のテクノロジーを進化させています。現在、AI の計算規模は半年ごとに倍増していますが、それはムーアの法則よりもはるかに早いペースです。同時に、高度なジェネラティブ AI と大規模言語モ

                                          AI の次の重要な一歩
                                        • 深層学習の数理

                                          Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku61.6K views•43 slides Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida15.5K views•38 slides

                                            深層学習の数理
                                          • 東京オリンピックの競技中に映り込んだ「実物大ガンダム」の説明に海外メディアが苦戦

                                            2021年7月から開催されている「東京2020オリンピック」は、新型コロナウイルスの影響で無観客開催となりましたが、競技の様子は世界中に配信されています。そんな中、競技の背景に映り込んだ「ガンダム」の説明にイギリスの公共放送であるBBCなどが苦戦していると、海外メディアが報じています。 Tokyo 2020 Olympics Commentator tries his best to say 'Gundam' https://kotaku.com/olympics-commentator-tries-his-best-to-say-gundam-1847366388 The BBC's Twitter Account Thought Gundam Was A Transformer https://kotaku.com/the-bbc-still-doesnt-know-what-gund

                                              東京オリンピックの競技中に映り込んだ「実物大ガンダム」の説明に海外メディアが苦戦
                                            • GPTの仕組みと限界についての考察(2.1) - conceptualization

                                              全3回のシリーズパート2の本記事では、GPTの能力と可能性をAttention/Transformerの仕組みをふまえて考察します。 というつもりでしたが、凄く長くなってしまったのでパート2は以下の3回に分けようと思います。 (2.1)各技術の定性的な説明(本記事) (2.2)Transformerのアルゴリズム詳細 (2.3)GPTの能力と可能性について 2.1 各技術の定性的な説明 自然言語の構造を考えてみる まず我々が使う言語についてちょっと振り返るところから話を始めましょう。 文や文章は、おおもとのデータである文字から始まって、単語、文節、句、節、文、文章、さらにその上の意味、という風に階層的な構造を持っていると我々は概念的に認識してますよね。 構文の階層 そして、各階層や階層間には、文法や語法といった言葉のルールがあります。 深層学習はその名の通り、層を深くしたニューラルネットワ

                                                GPTの仕組みと限界についての考察(2.1) - conceptualization
                                              • 【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ

                                                第1回は、さまざまなタスクをこなす万能型ジェネレーティブAIツール「ChatGPT」の性能の鍵を握る「トークン長(GPTが文脈を意識できる過去の単語数)」やGPTの歴史的経緯について解説しました。第2回はGPTを支える自然言語処理 の分野で使用される深層学習モデル「Transformer」とその根幹となる「Attention機構(そのタスクにおいてどの単語の重要度が高く、注目すべきか決める仕組み)」についてです。TransformerとAttention機構の仕組みを定性的に把握し、それを踏まえてGPTの能力と可能性について考察したいと思います。テクノロジー領域に明るくない人でもわかる記事を目指します。

                                                  【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ
                                                • ChatGPTなどの大規模言語モデルはどんな理論で成立したのか?重要論文24個まとめ

                                                  2022年11月にChatGPTが公開され、たった1週間で100万ユーザーを超えたのをきっかけに、GoogleのBardやMicrosoftのBing AI Chatなど、大規模言語モデルを利用したチャットAIが続々とリリースされています。チャットAIを研究しているセバスティアン・ラシュカさんが、チャットAIが実用化されるまでの研究の軌跡を重要な論文24個に絞って要約しています。 Understanding Large Language Models - by Sebastian Raschka https://magazine.sebastianraschka.com/p/understanding-large-language-models ◆目次 ・主要なアーキテクチャとタスク ・スケーリングと効率性の向上 ・言語モデルを意図した方向へ誘導する ・人間のフィードバックによる強化学習(

                                                    ChatGPTなどの大規模言語モデルはどんな理論で成立したのか?重要論文24個まとめ
                                                  • 30分で完全理解するTransformerの世界

                                                    はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                                                      30分で完全理解するTransformerの世界
                                                    • GWに徹底理解!GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開 | Ledge.ai

                                                      サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                        GWに徹底理解!GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開 | Ledge.ai
                                                      • 小粋空間: Movable Type プラグイン一覧

                                                        Movable Type 日本語環境でよく利用されていると思われる MovableType プラグインの一覧です。 海外サイトについては Googleで「Movable プラグイン」で検索した結果より、国内サイトは私が把握しているプラグイン作成者のサイトと Google 検索結果から抽出しています。Movable Type Plugins Directory からの抽出は行っていません。 また国内サイトのプラグインの概要は、配布サイトに掲載されている文言を引用させて頂いてます。 2010.05.01 MT5版のプラグイン一覧を公開しました。 2007.09.10 MT4版のプラグイン一覧を公開しました。本エントリーでのMT4版のプラグイン情報追加は終了します。 注意事項 プラグインに関するコメント等の主観的要素は含まないようにしています。プラグインの適用についてはご自身の判断で行ってくださ

                                                          小粋空間: Movable Type プラグイン一覧
                                                        • 機械学習の精度と売上の関係

                                                          【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)

                                                            機械学習の精度と売上の関係
                                                          • 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita

                                                            追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入

                                                              世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita
                                                            • メンヘラちゃんと学ぶディープラーニング最新論文 - ディープラーニングブログ

                                                              メンヘラちゃんがディープラーニングの最新論文をバリバリ語ってくれるシリーズです.Twitterに投稿したスライドをまとめました. サムネ画像 スライド内のテキスト抽出(検索エンジン用) メンヘラちゃんと学ぶ ディープラーニング最新論文 製作: Ryobot はじめに 作者 • Ryobot (りょぼっと) • NAIST修士2年.RIKEN AIP勤務 (2017/7~) • チャットボットの個性と多様性の研究をしています • Twitter@_Ryobot でお気に入り論文を紹介しています スライドの概要 • メンヘラちゃんが最新論文をバリバリ語ってくれます • 分野は主に自然言語処理 (機械翻訳と言語理解) です • Twitter で投稿したスライドのまとめです メンヘラちゃん • ジョイネット様制作のLINEスタンプです • 作者様がフリー素

                                                                メンヘラちゃんと学ぶディープラーニング最新論文 - ディープラーニングブログ
                                                              • 最近話題になった 音楽生成AI まとめ|npaka

                                                                最近話題になった「音楽生成AI」をまとめました。 1. AudioGenテキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や 「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。 現在のところ、モデルやAPIは提供されていません。 We present “AudioGen: Textually Guided Audio Generation”! AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio). 📖 Paper: https://t.co/XKctRaShN1 🎵 Samples: https://t.co/e7vWmOUfva 💻 Code & mod

                                                                  最近話題になった 音楽生成AI まとめ|npaka
                                                                • GPTの仕組みをちゃんと勉強したい本 - きしだのHatena

                                                                  やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。 まず理論的な概要。 機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。 最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。 深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山 英樹,二反田 篤史,田村 晃裕,井上 中順,牛久 祥孝サイエンス社Amazon で、もういきなり作る。 トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる

                                                                    GPTの仕組みをちゃんと勉強したい本 - きしだのHatena
                                                                  • やはり予想を超えてこなかったGPT-4と、GPUの未来、ホビイストへの手紙

                                                                    やはり予想を超えてこなかったGPT-4と、GPUの未来、ホビイストへの手紙 2023.03.16 Updated by Ryo Shimizu on March 16, 2023, 08:00 am JST 3月14日の早朝、GPT-4が公開され、筆者は早速試した。 その後、開けて3月15日の早朝、APIも部分的に解放され、筆者はそれも試した。 その上で、先週書いた記事の内容についての確信が深まった。 やはり、GPT-4は期待を超えてはこなかった。 GPT-4は、ChatGPT Plusに入会すると誰でもすぐに使うことができる。APIだけは招待制だが、それも筆者と同じくらいのタイミングでアンロックされた方も少なくないのではないか。 100倍規模のパラメータがあっても、アプローチには限界があるのである。 また、ChatGPTが注目を集めたことで、これまで下火になっていた他の大規模言語モデル(

                                                                      やはり予想を超えてこなかったGPT-4と、GPUの未来、ホビイストへの手紙
                                                                    • Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita

                                                                      08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ

                                                                        Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita
                                                                      • (数式を使わない) Transformer の直感的な説明 / 真面目なプログラマのためのディープラーニング入門

                                                                        (数式を使わない) Transformer の直感的な説明 RNN の欠点 Transformer はこれをどう解決したか Transformer の動作原理 複数の要素間の関係を考慮する (Self-Attention、自己注意) 要素の順序を考慮する (Positional Encoding、位置エンコーディング) まとめ 概要: ChatGPT などで使われている Transformer モデルは、 ニューラルネットワークの世界にいくつかの革新的なアイデアをもたらした。 本記事では、プログラマに理解しやすい形でそれらのアイデアを解説する。 実際に使われている数学の詳細には触れない。 (技術的解説については元論文 Attention is All You Need か、 その注釈版である The Annotated Transformer を参照のこと。 日本語では この解説 がわかり

                                                                        • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

                                                                          昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

                                                                            驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
                                                                          • 「ChatGPT」に浮かれる人が知らない恐ろしい未来

                                                                            2022年11月の公開から瞬く間に大旋風を巻き起こしたAIチャットボット「ChatGPT」。その技術を自社の検索エンジン「Bing」に取り入れたマイクロソフトと、生成AIの進化に貢献した深層学習の手法「Transformer」を生んだグーグルによるAI競争も、熾烈さを増している。 一方で、こうした生成AIの回答には誤りも多く、社会にもたらす悪影響への懸念がくすぶる。このテクノロジーとどう向き合うべきなのか。国立情報学研究所 社会共有知研究センター長で、2011年にスタートした人工知能プロジェクト「ロボットは東大に入れるか」のプロジェクトディレクタを務めた新井紀子氏に聞いた。 ――ChatGPTやBingchatが続々と公開され、自然な受け答えを評価される一方、誤りの多さについて懸念も上がっています。 Transformerの登場以降、書き手が人か機械かの見分けがつかないほど、AIの生成する

                                                                              「ChatGPT」に浮かれる人が知らない恐ろしい未来
                                                                            • 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

                                                                              0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、

                                                                                画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
                                                                              • 機械学習の進化が、「レンズ」というカメラの当たり前を覆す 次世代イメージセンシング・ソリューション開発を加速

                                                                                要点 最先端機械学習モデル「Vision Transformer」に基づく、新たなレンズレスカメラの画像再構成手法を提案 提案した画像処理技術は高速に高品質な画像を生成できることを実証 小型・低コストかつ高機能であるため、IoT向け画像センシング等への活用に期待 概要 東京工業大学 工学院 情報通信系の潘秀曦(Pan Xiuxi)大学院生(博士後期課程3年)、陈啸(Chen Xiao)大学院生(博士後期課程2年)、武山彩織助教、山口雅浩教授らは、レンズレスカメラの画像処理を高速化し、高品質な画像を取得できる、Vision Transformer(ViT)[用語1]と呼ばれる最先端の機械学習技術を用いた新たな画像再構成手法を開発した。 カメラは通常、焦点の合った画像を撮影するためにレンズを必要とする。現在、IoT[用語2]の普及に伴い、場所を選ばず設置できるコンパクトで高機能な次世代カメラが

                                                                                  機械学習の進化が、「レンズ」というカメラの当たり前を覆す 次世代イメージセンシング・ソリューション開発を加速
                                                                                • LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社

                                                                                  LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に 従来の特化型言語モデルとは異なる、汎用型言語モデルを実現予定。 処理インフラには世界でも有数の、700ペタフロップス以上の高性能スーパーコンピュータを活用 LINE株式会社(所在地:東京都新宿区、代表取締役社長:出澤剛)はNAVERと共同で、世界でも初めての、日本語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表いたします。 超巨大言語モデル(膨大なデータから生成された汎用言語モデル)は、AIによる、より自然な言語処理・言語表現を可能にするものです。日本語に特化した超巨大言語モデル開発は、世界でも初めての試みとなります。 従来の言語モデルは、各ユースケース(Q&A、対話、等)に対して、自然言語処理エンジニアが個

                                                                                    LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社