並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 246件

新着順 人気順

deeplearningの検索結果121 - 160 件 / 246件

  • Introducing Gemini: our largest and most capable AI model

    A note from Google and Alphabet CEO Sundar Pichai: Every technology shift is an opportunity to advance scientific discovery, accelerate human progress, and improve lives. I believe the transition we are seeing right now with AI will be the most profound in our lifetimes, far bigger than the shift to mobile or to the web before it. AI has the potential to create opportunities — from the everyday to

      Introducing Gemini: our largest and most capable AI model
    • RAGに質問分類させる「Adaptive-RAG」の解説

      本記事では、「Adaptive-RAG」についてざっくり理解します。軽めの記事です。 株式会社ナレッジセンスでは普段の業務で、生成AIやRAGシステムを活用したサービスを開発しています。 この記事は何 この記事は、Adaptive系で現在、最も「コスパ」が良いとされる「Adaptive-RAG」の論文[1]について、日本語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー RAGの回答精度を高めるための手法です。韓国科学技術院(KAIST)の研究者らによって2024年3月に提案されました。「Adaptive-RAG」という手法を使うメリットは、ユーザーからの入力としてシンプルな質問・複雑な質問、どちらも想定される場合に、「そこまで遅くなりすぎずに、ある程度の回答精度がでる」という点

        RAGに質問分類させる「Adaptive-RAG」の解説
      • Google's best Gemini demo was faked | TechCrunch

        Google’s new Gemini AI model is getting a mixed reception after its big debut yesterday, but users may have less confidence in the company’s tech or integrity after finding out that the most impressive demo of Gemini was pretty much faked. A video called “Hands-on with Gemini: Interacting with multimodal AI” hit a million views over the last day, and it’s not hard to see why. The impressive demo “

          Google's best Gemini demo was faked | TechCrunch
        • 最近の7B小型日本語LLMはエージェントになれるのか?

          あれから進化的マージの試行錯誤を繰り返していたが、ついに相当性能が高そうなモデルが生まれた。 Umievo-itr012-Gleipnir-7Bである。 umiyuki/Umievo-itr012-Gleipnir-7B · Hugging Face ElyzaTasks100の平均スコアは3.91に達して、ついにGPT-3.5Turboのスコア(3.88)を上回ってしまった。 ただし、スコアが上回ってるからと言って性能が勝ってるというわけではない事に注意して欲しい。例えるなら、身長が高いからと言って強いわけではないみたいな話である。 前回の記事では少し誤解を招く書き方だったかもしれないが、そもそも7Bの小型日本語LLMなんてのは基本的にドアホである。間違ってもChatGPTの代わりに使えるなんて考えてはいけない。 とは言うものの、単なるドアホではスコア3.91なんて取れないという事もまた

            最近の7B小型日本語LLMはエージェントになれるのか?
          • モデルパラメータの算術 - ジョイジョイジョイ

            深層モデルのパラメータを一列に並べてベクトルにします。このベクトルは大規模なモデルであれば何十億次元にもなります。一見、意味のない数値の羅列のようですが、このベクトルはベクトルとして深い意味があることが分かってきています。例えば、 と を異なるパラメータベクトルとすると、 や をパラメータとして持つモデルはちゃんと機能します。本稿では、このようなモデルパラメータの算術を用いた手法とその背後にある理論について解説します。 モデルスープ タスクベクトル モデルパラメータとニューラルタンジェントカーネル おわりに モデルスープ モデルスープ [Wortsman+ ICML 2022] は複数のモデルパラメータを平均することで性能を上げる手法です。事前学習モデル からはじめて、様々なハイパーパラメータで訓練した結果のパラメータを とします。これらを平均したベクトル は個々のモデルよりも性能が高く、

              モデルパラメータの算術 - ジョイジョイジョイ
            • 『ゼロから作る Deep Learning ❺』 公開レビューのお知らせ|斎藤 康毅(さいとう こうき)

              問題に感じた箇所や改善すべきと思った点など、コメントいただけますと幸いです。レビューに貢献していただいた方には、感謝の印として、本書に名前を記載させていただく予定です(もちろん、同意のある方のみです)。下記のように、レビューアの方の名前をクレジットとして掲載する予定です。 左は『ゼロから作るDeep Learning ❷』、右は中国語に翻訳された『Deep Learning 2』なお、本のタイトルに「❺」とありますが、前作までの知識がなくても読める内容になっています。前提条件としては、Pythonと数学の基本的な知識が必要になります。数式も多く登場します。ちなみに、本書の概要は次のとおりです。 人気シリーズの第5弾。今回のテーマは「生成モデル」です。本書では「正規分布」から「拡散モデル」に至るまでの技術を繋がりのあるストーリーとして展開します。読者は小さな学びを積み重ねながら、ステップバイ

                『ゼロから作る Deep Learning ❺』 公開レビューのお知らせ|斎藤 康毅(さいとう こうき)
              • 音声会話型おしゃべりAIアプリ  Cotomo(コトモ)

                Cotomo(コトモ)は毎日のおしゃべりから、あなたのことを覚えてより身近な話し相手になってくれる音声会話型おしゃべりAIアプリです。

                  音声会話型おしゃべりAIアプリ  Cotomo(コトモ)
                • ロボット工学や自動運転などで顕在化するAI課題を解決、MIT発「Liquid Neural Networks」とは何か - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                  現在の人工知能(AI)を取り巻く環境では、 大規模言語モデル(LLM)の話題から、ますます大規模なニューラルネットワークの開発競争が起きている。しかし、すべてのアプリケーションが、大規模なディープラーニングモデルの計算量とメモリの要求をできるわけではない。 このような環境の制約が、いくつかの興味深い研究の方向性につながっている。MIT(マサチューセッツ工科大学)の CSAL(コンピュータ科学・人工知能研究所)の研究者が開発した新しいタイプのディープラーニングアーキテクチャ「Liquid Neural Networks」は、特定の AI 問題に対して、コンパクトで適応性が高く、効率的なソリューションを提供する。これらのネットワークは、従来のディープラーニングモデルに内在する課題のいくつかに対処するように設計されている。 Liquid Neural Network は AI の新たなイノベーシ

                    ロボット工学や自動運転などで顕在化するAI課題を解決、MIT発「Liquid Neural Networks」とは何か - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                  • The capabilities of multimodal AI | Gemini Demo

                    Our natively multimodal AI model Gemini is capable of reasoning across text, images, audio, video and code. Here are favorite moments with Gemini Learn more and try the model: https://deepmind.google/gemini Explore Gemini: https://goo.gle/how-its-made-gemini For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity. Subscribe to our Channel: h

                      The capabilities of multimodal AI | Gemini Demo
                    • 大規模モデルを単一GPUで効率的に学習する方法|npaka

                      以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。 ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ

                        大規模モデルを単一GPUで効率的に学習する方法|npaka
                      • ChatGPTが証明した「モラベックのパラドックス」とは?

                        1963年、群馬県生まれ。作家・ジャーナリスト、KDDI総合研究所・リサーチフェロー、情報セキュリティ大学院大学客員准教授。東京大学理学部物理学科卒業。同大学院理学系研究科を修了後、雑誌記者などを経てボストン大学に留学、マスコミ論を専攻。ニューヨークで新聞社勤務、慶應義塾大学メディア・コミュニケーション研究所などで教鞭を執った後、現職。著書に『ゼロからわかる量子コンピュータ』『仕事の未来~「ジョブ・オートメーション」の罠と「ギグ・エコノミー」の現実』『AIの衝撃~人工知能は人類の敵か』『ゲノム編集とは何か~「DNAのメス」クリスパーの衝撃』(いずれも講談社現代新書)、『「スパコン富岳」後の日本~科学技術立国は復活できるか』(中公新書ラクレ)、『ゲノム編集から始まる新世界~超先端バイオ技術がヒトとビジネスを変える』(朝日新聞出版)、『AIが人間を殺す日~車、医療、兵器に組み込まれる人工知能』

                          ChatGPTが証明した「モラベックのパラドックス」とは?
                        • AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory

                          はじめにこんにちは、Doryと申します! あらゆる業務をAIエージェントで変革するべく、Algomaticという生成AIスタートアップで自社サービス開発や法人向けのAI導入支援に取り組んでいます。 この記事では、AI技術を現場の実業務に導入しようとしたとき、企業が高確率でぶつかる「3つの壁」について、自身の経験も交えて記載していきます。 【この記事には何が書いてある?】 ・AI技術を使って業務を変革しようとするとき、必ずぶつかるのは「AI以外」の壁であること ・3つの壁を乗り越えなければ、AIによる業務改革は進まないということ 【この記事の想定読者】 ・AIを自社にも取り入れたいと考えている経営者の方 ・AIの社内推進がミッションの、いわゆる「AI推進室・DX推進室」の方 ・その他、AIの力で自社を変えたい!と考えている方 以下、本文では簡単のため「AI」という表現を多用しておりますが、具

                            AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory
                          • RAGでの回答精度向上のためのテクニック集(応用編-B)

                            はじめまして。株式会社ナレッジセンスの門脇です。普段はエンジニア兼PMとして、「社内データに基づいて回答してくれる」チャットボットをエンタープライズ企業向けに提供しています(一応、200社以上に導入実績あり)。ここで開発しているチャットボットは、ChatGPTを始めとしたLLM(Large Language Models)を活用したサービスであり、その中でもRAG(Retrieval Augmented Generative)という仕組みをガッツリ利用しています。本記事では、RAG精度向上のための知見を共有していきます。 はじめに この記事は何 この記事は、LlamaIndexのAndrei氏による『A Cheat Sheet and Some Recipes For Building Advanced RAG』[1]という記事で紹介されている「RAGに関するチートシート」について、And

                              RAGでの回答精度向上のためのテクニック集(応用編-B)
                            • Prompt Tuning から Fine Tuning への移行時期推定

                              公開されている大規模言語モデルをどの程度のデータで Fine Tuning すれば Claude や ChatGPT などの API 公開されているモデルの精度に匹敵するのか検証した資料です。 言語処理学会第30回年次大会 併設ワークショップ 日本語言語資源の構築と利用性の向上 (JLR2024) での発表資料です。 実装はこちら https://github.com/aws-samples/aws-ml-jp/tree/main/tasks/generative-ai/text-to-text/evaluation/lm-evaluation-harness 先行し公開したブログ https://aws.amazon.com/jp/blogs/news/cost-efficiency-of-api-and-oss-generative-ai/

                                Prompt Tuning から Fine Tuning への移行時期推定
                              • ChatGPT時代の開発テクニック①: ChatGPTにエラーの原因を語らせよう|べいえりあ

                                こんにちは、IVRyでAIエンジニアをやっているべいえりあです。今回は自分が最近使っているChatGPTのプロンプトの改善方法について書いてみようと思います。 皆さんはChatGPTのプロンプトをいじっていてなかなかChatGPTが言うことを聞いてくれないという事態に遭遇したことはないですか?本記事を読めば、そんな時にChatGPTに言うことを聞いてもらえるプロンプトが素早く見つけられるようになるんじゃないかと思います。 従来の機械学習・プロンプト開発について具体的な手法について書く前に、普通の機械学習モデルやプロンプトの開発について軽くおさらいしておきたいと思います。機械学習モデルやプロンプトの開発は普通は以下のフローに従うと思っています。 機械学習、プロンプトの開発サイクル一旦モデルやプロンプトを作成したら、それを適当な評価セットの上で評価し、どんなエラーのパターンがあるかを分析し、そ

                                  ChatGPT時代の開発テクニック①: ChatGPTにエラーの原因を語らせよう|べいえりあ
                                • GitHub - Plachtaa/VALL-E-X: An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    GitHub - Plachtaa/VALL-E-X: An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io
                                  • 計算時間とメモリの壁を打破!Transformerの次世代モデルReformer

                                    3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya (Submitted on 13 Jan 2020 (v1), last revised 18 Feb 2020 (this version, v2)) Comments: ICLR 2020 Subjects: Machine Learning (cs.L

                                      計算時間とメモリの壁を打破!Transformerの次世代モデルReformer
                                    • 日本語CLIP 学習済みモデルと評価用データセットの公開

                                      はじめに 基盤モデル がAIの新潮流となりました。基盤モデルというとやはり大規模言語モデルが人気ですが、リクルートでは、画像を扱えるモデルの開発にも注力しています。画像を扱える基盤モデルの中でも代表的なモデルのCLIPは実務や研究のさまざまな場面で利用されています。CLIPの中には日本語に対応したものも既に公開されていますが、その性能には向上の余地がある可能性があると私たちは考え、仮説検証を行ってきました。今回はその検証の過程で作成したモデルと評価用データセットの公開をしたいと思います。 公開はHugging Face上で行っていますが、それに合わせて本記事では公開されるモデルやデータセットの詳細や、公開用モデルの学習の工夫などについて紹介します。 本記事の前半では、今回公開するモデルの性能や評価用データセットの内訳、学習の設定について紹介します。記事の後半では大規模な学習を効率的に実施す

                                        日本語CLIP 学習済みモデルと評価用データセットの公開
                                      • テキストからの実世界理解に向けて

                                        IBIS2023 企画セッション1 Vision and Languageの最前線 テキストからの実世界理解に向けて

                                          テキストからの実世界理解に向けて
                                        • 人類の未来は大学生の夏休み|Daichi Konno / 紺野 大地

                                          こんにちは。東京大学医学部を卒業後、医師かつ脳神経科学や人工知能の研究をしている紺野大地と申します。 最近のAIの急速な進歩を見ていると、 「頭の良さでAIと張り合うのは無意味である」と強く感じます。 現時点でも既に多くの面でAIは人間を上回っていて、その差が今後縮まることはないでしょう。 「人類で一番頭が良い人と一番頭が悪い人」との差は、「人類で一番頭が良い人とAI」との差に比べ、本当に取るに足らないものになりつつあります。 そしてAIがこの先さらに進歩すると、 「世界の富の大半を人工知能が生み出し、その富が人類全体に再分配される」という時代が来る可能性が十分ある、と考えます。 (OpenAI CEOのSam Altmanは以前から、このような”Universal Basic Income(UBI)”の必要性を示唆しています。) これが実現するかは未知数ですが、もし本当にそのような世界が

                                            人類の未来は大学生の夏休み|Daichi Konno / 紺野 大地
                                          • 大規模言語モデル入門 / LLM introduction (SES2023)

                                            ソフトウェアエンジニアリングシンポジウム2023 (SES 2023)

                                              大規模言語モデル入門 / LLM introduction (SES2023)
                                            • Retrieval-Augmented Generationシステムの改善方法の紹介 - AITC - ISID | AI トランスフォーメンションセンター コラム

                                              こんにちは、AI製品開発グループのファイサルです。 この記事では、Know Narrator Searchで使用されている文章参照手法、Retrieval-Augmented Generation(RAG)の精度向上方法について紹介します。 はじめに ChatGPTを始めとした大規模言語モデル(LLM)の登場により、AI業界、特に自然言語処理分野で多くの素晴らしい応用先が提案されるようになりました。 LLMは素晴らしい技術であることは間違いないですが、同時に幻覚(Hallucination)という問題を抱えています。 このHallucinationという問題は、LLMが事実と異なる情報をあたかも真実であるように回答するというもので、LLMの発表当初から指摘されていました。 この問題を解決するために、さまざまな手法が存在しますが、よく用いられるのが「Retrieval-Augmented G

                                                Retrieval-Augmented Generationシステムの改善方法の紹介 - AITC - ISID | AI トランスフォーメンションセンター コラム
                                              • LLM Fine-Tuning (東大松尾研LLM講座 Day5資料)

                                                東大松尾研サマースクール2023「大規模言語モデル」Day5の講義で使用した資料です。大規模言語モデルの Fine-Tuning をテーマに、Instruction Tuning および Parameter Efficient Fine-Tuning について体系的に紹介することを目指した内容となっています。 講座リンク: https://deeplearning.jp/llm2023/

                                                  LLM Fine-Tuning (東大松尾研LLM講座 Day5資料)
                                                • Bard から Gemini へ:Ultra 1.0 とGemini アプリを発表

                                                  メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

                                                    Bard から Gemini へ:Ultra 1.0 とGemini アプリを発表
                                                  • ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka

                                                    以下の記事が面白かったので、簡単にまとめました。 ・Towards Long Context RAG - LlamaIndex 1. はじめにGoogleは、1Mコンテキストウィンドウを持つ「Gemini 1.5 Pro」をリリースしました。初期ユーザーは、数十もの研究論文や財務報告書を一度に入力した結果を共有しており、膨大な情報を理解する能力という点で印象的な結果を報告しています。 当然のことながら、ここで疑問が生じます。「RAG」は死んだのでしょうか?そう考える人もいますが、そうではない人もいます。 幸運にも「Gemini 1.5 Pro」の機能をプレビューすることができ、それを試してみることで、ロングコンテキストLLMを適切に使用するには、RAGがどのように進化するのかについてのまとめました。 2. Gemini 1.5 Pro の 初期観察「Gemini」の結果は印象的で、テクニカ

                                                      ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka
                                                    • Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita

                                                      はじめに Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages という論文では、LLMの学習済み重みパラメータの足し引きによって、事前学習済みモデルに対話能力を与えることができるという結果が示されています。 具体的には、英語で事前学習されたモデル(以下ではベースモデルと呼びます)と、ベースモデルを指示チューニング (instruction tuning)してチャット形式の対話ができるようにしたモデル(英語チャットモデル)、ベースモデルを英語以外の言語で継続事前学習したモデルの3つのモデルを用います。 英語チャットモデルの重みからベースモデルの重みを引いたものは、チャット形式で対話ができる能力を表したベクトルであり、そのベクトルを

                                                        Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita
                                                      • アドビカタブラ! Adobe Maxで公開された魔法のようなテクノロジーの意味とは【西田宗千佳のRandomTracking】

                                                          アドビカタブラ! Adobe Maxで公開された魔法のようなテクノロジーの意味とは【西田宗千佳のRandomTracking】
                                                        • 日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料

                                                          iCAST 2020 Invited Talk: Fairness in AI Service and Awareness for Computational Social Science

                                                            日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料
                                                          • The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

                                                            Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-t

                                                            • 四元数ニューラルネットワークとGHR微積分

                                                              これは「FOLIO Advent Calendar 2023」6日目の記事です。 ニューラルネットワークで取り扱う数値を実数とは異なる数に拡張することは、機械学習や計算科学の発展における魅力的な課題の一つです。実数を用いた数値表現は多くのタスクにおいて十分な結果をもたらしてきましたが、新たな数値体系を導入することで、今までとは異なる問題が解決できるようになったり実数では見られなかった新たな現象が起こる可能性に期待することができるでしょう。例えば数値が取れる値を±1に制限したBinalized Neural Networksはハードウェアとの相性が良くメモリ効率の良い実装が可能であったり、拡大実数\bar{\mathbb R}={\mathbb R}\cup\{-\infty,\infty\}を用いた5層のReLUネットワークには任意の深さのReLUネットワークを埋め込むことができたりします

                                                                四元数ニューラルネットワークとGHR微積分
                                                              • Lumiere - Google Research

                                                                Google Research LUMIERE A Space-Time Diffusion Model for Video Generation Read Paper

                                                                  Lumiere - Google Research
                                                                • Embeddingモデルを使ったベクトル化のしくみ、fine-tuning手法を解説

                                                                  自己紹介
 • 名前
 ◦ 早野 康太
 • お仕事
 ◦ 自然言語モデルの改善 • 今期期待のアニメ
 ◦ ユーフォ、無職転生、夜のクラゲ
 このすば、ガールズバンドクライ
 • 最近の映画
 ◦ デデデデおもろかったです
 ▪ 幾田りら声優うまスンギ
 ▪ 原作もバチクソ良かった
 • 今後の映画
 ◦ ウマ娘、ぼざろ、デデデデなど アジェンダ
 • Transformerモデル
 ◦ Attentionについて
 ◦ CLS, mean pooling
 • fine-tuningについて
 ◦ Contrastive Learning
 ◦ データセットのつくりかた
 • 世のEmbeddingモデルたちはどうしてるか
 ◦ m-E5
 ◦ E5-mistral-7b-instruct
 ◦ BGE
 • Embeddingモデルの応用
 ◦ RAGとかStable Diffusi

                                                                    Embeddingモデルを使ったベクトル化のしくみ、fine-tuning手法を解説
                                                                  • Retentive Network: A Successor to Transformer for Large Language Models

                                                                    In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurre

                                                                    • 音楽生成AI のリリース年表|npaka

                                                                      AI 🤝 Music Suno can now sing! Our new model generates music with vocals, and you can try it now on Diśčòrd. See below for some early examples and an invite link to our open beta: pic.twitter.com/CjjfYM2YRZ — Suno (@suno_ai_) July 21, 2023

                                                                        音楽生成AI のリリース年表|npaka
                                                                      • Deep Paint v1.0 - GAKU氏によるGrease Pencilを活用した3Dイラスト・立体絵画制作支援ツールセットBlenderアドオンが遂にリリース!

                                                                        Blender アドオン プラグイン&アドオン-Plugin&Addon ICity 1.0 Beta - 区画設計から道路生成!プロシージャルビル生成!... 2024-05-21 テクニカルアーティストのHothifa Smair氏によるBlender用の都市生成アドオン『ICity 1.0』のベータ版がリリースされました! 続きを読む Blender アドオン プラグイン&アドオン-Plugin&Addon NijiGPen v0.9 - Grease Pencilでのグラフィックデザイ... 2024-05-20 Chaosinism氏によるGrease Pencilでのグラフィックデザインやイラスト制作を支援する機能拡張が可能な無料&オープンソースのBlenderアドオン『NijiGPen v0.9』がリリースされました! 続きを読む

                                                                        • Stable Diffusionの画像条件付けまとめ|gcem156

                                                                          Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。 手法の分類 画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える:Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える:Reference only, FABRIC Time embeddingに与える:UnCLIP, Revision その他の場所に与える:ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する:HyperDreambooth あれ・・?もしかしてこの時点でたいていの人は脱落ですか。この辺の

                                                                            Stable Diffusionの画像条件付けまとめ|gcem156
                                                                          • 【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL

                                                                            【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた 2024 2/20 WEELメディア事業部LLMリサーチャーの中田です。 1月18日、Whisperを利用したText-to-Speechモデル「WhisperSpeech」のアップデート版を、Collaboraが公開しました。 このAIモデルを用いることで、テキストを入力するだけで、簡単にそのテキストを(AIが)読み上げることができるんです、、、! 参考:https://github.com/collabora/WhisperSpeech GitHubでのスター数は、すでに1700を超えており、期待度が高いことを示しています。 この記事ではWhisperSpeechの使い方や、有効性の検証まで行います。本記事を熟読することで、WhisperSpeechの凄さを実感し、そこら

                                                                              【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL
                                                                            • CohereForAI/c4ai-command-r-plus · Hugging Face

                                                                              ","chat_template":[{"name":"default","template":"{{ bos_token }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% elif false == true %}{% set loop_messages = messages %}{% set system_message = 'You are Command-R, a brilliant, sophisticated, AI-assistant trained to assist human users by providing thorough responses. You

                                                                                CohereForAI/c4ai-command-r-plus · Hugging Face
                                                                              • GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch

                                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                  GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch
                                                                                • Introduction - SITUATIONAL AWARENESS: The Decade Ahead

                                                                                  Leopold Aschenbrenner, June 2024 You can see the future first in San Francisco. Over the past year, the talk of the town has shifted from $10 billion compute clusters to $100 billion clusters to trillion-dollar clusters. Every six months another zero is added to the boardroom plans. Behind the scenes, there’s a fierce scramble to secure every power contract still available for the rest of the deca

                                                                                    Introduction - SITUATIONAL AWARENESS: The Decade Ahead