並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 1361件

新着順 人気順

deeplearningの検索結果281 - 320 件 / 1361件

  • Stable Diffusion 2.0 Release

    We are pleased to announce the open-source release of Stable Diffusion Version 2. The original Stable Diffusion V1 led by CompVis changed the nature of open source AI models and spawned hundreds of other models and innovations worldwide. It had one of the fastest climbs to 10K GitHub stars of any software, rocketing through 33K stars in less than two months. The dynamic team of Robin Rombach (Stab

      Stable Diffusion 2.0 Release
    • Stable Diffusion のプロンプトで意味の足し算・引き算をする

      TL;DR Stable Diffusion でプロンプトに重みをつけたり、意味の世界で足したり引いたりするよ 例: ピラミッド - エジプト + 日本 = ? 画風をシームレスに変換できるよ seed 変更だと大きく変わってしまうけど、小さい重みで補正かければ構図を維持したまま絵に微調整を加えられるよ 意味の足し算・引き算 Stable Diffusion では、内部的に以下の 2 ステップの処理を行うことでテキストを画像に変換している テキストをベクトル(数の組)に変換する ベクトルを画像に変換する ところで、以下の動画を見てほしい テキストをベクトルにすることで、意味の世界で足し算や引き算が実現できている。 これを Stable Diffusion に応用したらどうなるだろうか[1]。 以下では、プロンプトの計算ができるように機能追加したStable Diffusionを用いる。 機

        Stable Diffusion のプロンプトで意味の足し算・引き算をする
      • Hirokatsu Kataoka | 片岡裕雄 on Twitter: "深層学習が登場してからの、直近10年分のコンピュータビジョンを俯瞰するセッションです!分野の主要な流れを凝縮して「たったの」40分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc"

        深層学習が登場してからの、直近10年分のコンピュータビジョンを俯瞰するセッションです!分野の主要な流れを凝縮して「たったの」40分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc

          Hirokatsu Kataoka | 片岡裕雄 on Twitter: "深層学習が登場してからの、直近10年分のコンピュータビジョンを俯瞰するセッションです!分野の主要な流れを凝縮して「たったの」40分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc"
        • Markdown + AI(GithubCopiotX)の驚異のタッグ!💥 2023年新世代の爆速ライティング体験へようこそ!💻いま、✨GithubCopiotXでMarkdownを作らないで、いつ作りますか? - Qiita

          Markdown + AI(GithubCopiotX)の驚異のタッグ!💥 2023年新世代の爆速ライティング体験へようこそ!💻いま、✨GithubCopiotXでMarkdownを作らないで、いつ作りますか?MarkdownVSCodegithubcopilotChatGPTMarkdownViewer 新世代のライティング体験 VSCode Insider+GitHub Copilot nightly(Chat機能)で快適なMarkdown執筆体験を実現! Markdown Viewerでリアルタイムにプレビューを確認しながら執筆可能! Typoraを使っていた頃のライティング体験とは比べ物にならないほど快適! ChatGPTと比べても、MarkDownを理解して会話ができるので便利すぎる! ※2023/06/09追記(Chat機能など)ベータプレビュー版の機能について一旦削除m(

            Markdown + AI(GithubCopiotX)の驚異のタッグ!💥 2023年新世代の爆速ライティング体験へようこそ!💻いま、✨GithubCopiotXでMarkdownを作らないで、いつ作りますか? - Qiita
          • 最新の論文をChatGPTで要約して毎朝Slackに共有してくれるbotを作る!

            研究室のSlackチャンネルに最新の論文を共有してくれるbotがあれば、議論をもっと活発化できるのでは?と思ったので試しに作ってみました! 目標 こんな感じで、時間通りにarxiv論文を要約したものをシェアしてくれるSlackbotを作ります。 手順 SlackBotのためのAPIトークンを生成 OpenAIのAPIを取得 Pythonコードを作成 Google Cloud Platform(GCP)で実行を自動化 完成! 1. SlackBotのためのAPIトークンを生成 Slack APIのページからbotを作成する必要があります。 この方の記事で詳しいやり方が紹介されているので、参考にしながらアプリ作成、APIトークン生成、ワークスペースにアプリをインストール、メッセージ送信のテストまでやってみてください。 2. OpenAIのAPIを取得 今回は取得した論文を要約するために、Cha

              最新の論文をChatGPTで要約して毎朝Slackに共有してくれるbotを作る!
            • まるで透明マント。監視カメラでAIが認識しないアグリー・セーターが作られる

              まるで透明マント。監視カメラでAIが認識しないアグリー・セーターが作られる2022.10.22 16:0090,468 岡本玄介 目立つ柄だけど社会的に消えます。 伝統的に冬になると欧米人が着る、ダッサい柄の「アグリー・セーター」。マイクロソフトも毎年新作をリリースし、音楽業界ではアイアン・メイデンやガンズ・アンド・ローゼズがオリジナルを作っていましたね。 さて、今年もそろそろアグリー・セーターの時期が到来しようという頃合いですが、ニューヨーク州にあるコーネル大学では、監視カメラでAIが認識しない「アグリー・セーター」が爆誕した模様。『ドラえもん』や『ハリーポッター』では物理的に消える「透明マント」がありましたが、こちらは社会的に透明人間になれる装備となっています。 検出オブジェクトの信頼度を下げる模様デカデカと印刷されている市場のカボチャみたいな模様は、機械学習システムが認証時に用いるス

                まるで透明マント。監視カメラでAIが認識しないアグリー・セーターが作られる
              • DeepLearning.AIとOpenAI、AIのプロンプトエンジニアリング学習コースを無償提供

                印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 「ChatGPT」の公開をきっかけに、生成型の人工知能(AI)が大きなブームとなった結果、AI分野や雇用市場が急速に変化している。将来に向けた言語モデルの開発を推し進めたり、既存のモデルを洗練させられる人材は、プロンプトエンジニアも含めて引く手あまたとなっている。 AIに関する教育を提供するDeepLearning.AIはOpenAIと提携し、プロンプトエンジニアリングのための無料コースを開発者向けに提供すると発表した。 同社のウェブサイトによると、この無料の1時間コースは、強力なアプリケーションを新たに構築するための大規模言語モデル(LLM)の使用方法を教えるものだという。 講師は、OpenAIの技術スタッフであるIsa Fulfor

                  DeepLearning.AIとOpenAI、AIのプロンプトエンジニアリング学習コースを無償提供
                • 人間のキャッチコピーをついにAIが凌駕、JPモルガンがAIキャッチコピーを採用することに

                  by Franck V. Follow Message 人間の仕事の多くをAIが行うようになる未来が予測されるなか、現実にマーケティングが機械学習で自動化されるということが起こっています。そして新たに、JPモルガン・チェースがディスプレイ広告やメールでのキャッチコピーにAIを取り入れることを発表。AIが作ったキャッチコピーは人間製のものよりもクリック率が2倍になることすらあるそうです。 JPMorgan Chase Taps AI to Make Marketing Messages More Powerful - WSJ https://www.wsj.com/articles/jpmorgan-chase-taps-ai-to-make-marketing-messages-more-powerful-11564482606 Chase commits to AI after mach

                    人間のキャッチコピーをついにAIが凌駕、JPモルガンがAIキャッチコピーを採用することに
                  • 2022年の深層学習ハイライト - Qiita

                    はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。 研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,

                      2022年の深層学習ハイライト - Qiita
                    • ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森

                      グラフ理論と隣接行列 グラフ理論は点と線で物事を表す理論です。たとえば駅の路線図では下記のように駅を点、路線を線で表します。 東京メトロホームページより 上記の路線図では「駅と駅が隣接するかどうか」を中心に取り扱う一方で、それぞれの位置や方角などは厳密に再現はされません。このように、「隣接するかどうか」のみに着目して物事を表す際の理論を「グラフ理論」といいます。 グラフ理論では点をノード(node)、線をエッジ(edge)、全体をグラフ(graph)と定義します。数式で表すと$G = (V,E)$のように表しますが、$V$が頂点のVertice、$E$がEdge、$G$がGraphであるとそれぞれ解釈すると良いです。 グラフの表記法に関しては主に$2$通りあり、「①図を用いる」と「②隣接行列を用いる」をそれぞれ抑えておくと良いです。例があるとわかりやすいので下記のWikipediaの例を元

                        ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森
                      • 【期間限定】#今こそ学ぼう オンライン学習コンテンツ「無料公開」のご案内

                        新型コロナウィルス感染拡大に伴い不要の外出を控える社会人や学生のみなさまに向け、 JDLA認定プログラムを実施する事業者の協力を得て、一部のオンライン学習コンテンツを期間限定で無料公開いたします *2020年1月20日に「INTLOOP株式会社」の講座を追加しました *12月1日に「エッジテクノロジー株式会社」の講座提供期間を延長しました *5月19日に「スキルアップ株式会社」の講座期間定めなし、申込み方法追加しました *5月13日に「スキルアップ株式会社」の1講座を追加しました *5月1日に「Study-AI株式会社」の3講座を追加しました *4月27日に「NTTラーニングシステムズ株式会社」の1講座を追加しました *4月24日に「株式会社日経BP」の1講座を追加しました *4月17日に「エッジテクノロジー株式会社」の3講座を追加しました *4月9日に「株式会社キカガク」の1講座を追加し

                          【期間限定】#今こそ学ぼう オンライン学習コンテンツ「無料公開」のご案内
                        • Introducing ChatGPT and Whisper APIs

                          Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those

                            Introducing ChatGPT and Whisper APIs
                          • Teslaはカメラを使ってどのように世界を認識しているか

                            TURINGの社内AI勉強会で発表した資料です。 Tesla AI Day 2021で紹介されたTesla車に搭載されているマルチカメラを用いた認識モデルの紹介と、それに関連しそうな論文の紹介をしています。

                              Teslaはカメラを使ってどのように世界を認識しているか
                            • Teslaにおけるコンピュータビジョン技術の調査

                              社内勉強会での発表資料です。公開情報をもとにTeslaのコンピュータビジョン技術について調査したものです。Read less

                                Teslaにおけるコンピュータビジョン技術の調査
                              • コンピュータビジョン今昔物語 - 深層学習がCVの世界をどう変えたか - (JPTA Tech Talk講演資料) - takminの書きっぱなし備忘録 @はてなブログ

                                今回、CV勉強会に何度か参加&発表していただいたJin Yamanakaさんにお誘いいただき、JTPA (Japan Technology Professional Association)というところで、「コンピュータビジョン今昔物語 -深層学習がCVの世界をどう変えたか-」という大上段なタイトルで講演させていただきました。 www.meetup.com このJTPAのTech Talkでは、機械学習/深層学習の勉強会を開催してきたそうなのですが、私自身「これ」という深層学習の専門があるわけではないので、コンピュータビジョン全体の基礎的な技術の変遷を、深層学習と絡めて広く浅く網羅した話をさせていただきました。 ちなみにここで紹介した深層学習の技術は、「既存の技術を置き換えるために、深層学習は何をクリアしなくてはならないか?」という視点で、紹介するのが適当と思ったものを選んだつもりです。

                                  コンピュータビジョン今昔物語 - 深層学習がCVの世界をどう変えたか - (JPTA Tech Talk講演資料) - takminの書きっぱなし備忘録 @はてなブログ
                                • GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例

                                  こんにちは。わいけいです。 今回の記事では、生成AI界隈ではかなり浸透している RAG について改めて解説していきます。 「低予算で言語モデルを使ったアプリを開発したい」というときに真っ先に選択肢に上がるRAGですが、私自身もRAGを使ったアプリケーションの実装を業務の中で何度も行ってきました。 今回はその知見をシェア出来れば幸いです。 RAG(Retrieval-Augmented Generation)とは まず、 そもそもRAGとは何ぞや? というところから見ていきましょう。 RAG(Retrieval-Augmented Generation) は自然言語処理(NLP)と特に言語モデルの開発において使用される技術です。 この技術は、大規模な言語モデルが生成するテキストの品質と関連性を向上させるために、外部の情報源からの情報を取得(retrieval)して利用します。 要は、Chat

                                    GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例
                                  • 「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話

                                    「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話(1/2 ページ) AIベンチャーのAVILENが、強化学習を使ってAIを極限まで弱くしたブラウザゲーム「最弱オセロ」をリリース。AIが対局中に「あえて角を取らない」「石を少なく取る」といった行動を取り続けるため、人間は負けることが難しいゲームだ。生みの親である吉田拓真CTOに、開発した経緯を聞いた。 「負けられるなら負けてみてくれ!」――。AIの開発やAI人材の育成を手掛けるベンチャー「AVILEN」(東京都千代田区)は7月25日に、強化学習を使ってAIを極限まで弱くしたブラウザゲーム「最弱オセロ」をリリースした。AIが対局中に「あえて角を取らない」「石を少なく取る」といった行動を取り続けるため、人間は負けることが難しいのが特徴だ。このゲームを開発した、AVILENの吉田拓真CTO(最高

                                      「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話
                                    • AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】

                                      TOPコラム海外最新IT事情AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 2024年1月23日 米Metaと米ニューヨーク大学に所属する研究者らが発表した論文「Self-Rewarding Language Models」は、大規模言語モデル(LLM)が自分自身に報酬を与えることで繰り返し学習する「自己報酬型言語モデル」を提案した研究報告である。このモデルは、自身が生成した問題に対する応答に報酬を割り当て、その結果をトレーニングデータとして使用。自己を反復して訓練することで、精度を向上させられる。 keyboard_arrow_down 研究背景 keyboard_arrow_down 研究内容

                                        AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】
                                      • 大澤昇平🇺🇳 on Twitter: "伊藤詩織の何がダメダメかって、刑事裁判でレイプが認められなかったにもかかわらず、その後の民事裁判の結果をレイプを関連付けている点。 今回もやってることの筋が通っておらず全く支持できない。"

                                        伊藤詩織の何がダメダメかって、刑事裁判でレイプが認められなかったにもかかわらず、その後の民事裁判の結果をレイプを関連付けている点。 今回もやってることの筋が通っておらず全く支持できない。

                                          大澤昇平🇺🇳 on Twitter: "伊藤詩織の何がダメダメかって、刑事裁判でレイプが認められなかったにもかかわらず、その後の民事裁判の結果をレイプを関連付けている点。 今回もやってることの筋が通っておらず全く支持できない。"
                                        • 「AI+人間」で手塚治虫の新作漫画を生み出す「TEZUKA2020」。漫画『ぱいどん』がお披露目

                                            「AI+人間」で手塚治虫の新作漫画を生み出す「TEZUKA2020」。漫画『ぱいどん』がお披露目
                                          • GPUに比べて最大15倍高速な市販CPU向けのディープラーニングアルゴリズムが開発される

                                            近年のAIは、人間が手を加えなくてもコンピューターが自動的に大量のデータからそのデータの特徴を発見する「ディープラーニング(深層学習)」という学習手法で動いています。このディープラーニングは、コンピューターゲームに代表されるリアルタイム画像処理に特化した演算装置・プロセッサであるGPUで処理されるというのが通例ですが、ライス大学のコンピューター科学者がIntelと共同で「GPUに比べて最大15倍も高速にディープラーニングできるCPU向けソフトウェア」を開発しました。 ACCELERATING SLIDE DEEP LEARNING ON MODERN CPUS:VECTORIZATION, QUANTIZATIONS, MEMORY OPTIMIZATIONS, AND MORE (PDFファイル)https://proceedings.mlsys.org/paper/2021/file/

                                              GPUに比べて最大15倍高速な市販CPU向けのディープラーニングアルゴリズムが開発される
                                            • Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.

                                              Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 本記事のサマリーELYZAが「Llama 2」ベースの商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開 性能は「GPT-3.5 (text-davinci-003)」に匹敵、日本語の公開モデルのなかでは最高水準 Chat形式のデモや評価用データセットも合わせて公開 既に社内では、130億、700億パラメータのモデルの開発も進行中 はじめにこんにちは。ELYZAの研究開発チームの佐々木、中村、平川、堀江です。 この度ELYZAは、Metaの「Llama 2」をベースに、日本語による追加事前学習を行なった日本語言語モデル「ELYZA-japanese-Llama-2-7b」と、そこにELYZA独自の事後学習を施した「

                                                Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.
                                              • エンジニアはLLMとどう付き合うか / How engineer get along with LLM

                                                2023/7/24のDevelopersIO 2023 福岡での登壇資料です。 https://classmethod.connpass.com/event/286634/

                                                  エンジニアはLLMとどう付き合うか / How engineer get along with LLM
                                                • AI を活用したソフトウェア開発のための個人的ガイド - Sun wood AI labs.2

                                                  https://www.reddit.com/r/LocalLLaMA/comments/1cvw3s5/my_personal_guide_for_developing_software_with_ai/?rdt=40405 はじめに 私は個人プロジェクトでコードを書く際、特に自動化のためのものを書く際には、AI を活用しています。この点について、人によって意見が分かれるようです。同じように AI を使っている人もいれば、AI が良いコードを書くことは不可能だと考える人もいます。私の分野の専門家の間でも同様の考え方に遭遇し、AI の使い方が人によって異なるのかもしれないと気づきました。 私自身のバックグラウンドですが、私は開発マネージャーであり、業界で長年の経験を積み、大学院でもソフトウェア開発を学んできました。ですので、このガイドは素人ではなく、大規模システムの構築と運用に関するかなり

                                                    AI を活用したソフトウェア開発のための個人的ガイド - Sun wood AI labs.2
                                                  • 深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG

                                                    こんにちは、R&Dチームの河野(@ps3kono)です。深層学習モデルの開発を担当しております。 今回は、画像分類、画像検査、顔認識や異常検知など様々な分野に利用されている深層距離学習(Deep Metric Learning)について紹介したいと思います。 Deep Metric Learningとは 定番のクラス分類と距離学習によるクラス分類の違い 距離学習の進化 1. 対照的(contrastive)アプローチ サンプル選択(sample selection) 代表的な学習手法 Contrastive loss Triplet loss さらなる改善と進化 対照的アプローチの問題点 2. Softmaxをベースにしたアプローチ 代表的な学習手法 Center loss SphereFace CosFace ArcFace さらなる改善と進化(2019年以降) 推論 深層距離学習の利点

                                                      深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG
                                                    • ChatGPT can now see, hear, and speak

                                                      We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about. We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT w

                                                        ChatGPT can now see, hear, and speak
                                                      • 大規模言語モデルの開発

                                                        2024年度 人工知能学会全国大会(第38回)チュートリアル講演1 本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデルの学習や評価などを説明し、日本語に強い大規模言語モデルの現状や課題を議論したい。

                                                          大規模言語モデルの開発
                                                        • メルアイコン変換器を作った話 - Qiita

                                                          はじめに 「メルアイコン」と呼ばれる、Melvilleさんの描くアイコンはその独特な作風から大勢から人気を集めています。 上はMelvilleさんのアイコンです。 この方へアイコンの作成を依頼し、それをtwitterアイコンとしている人がとても多いことで知られています。 代表的なメルアイコンの例 (左から順にゆかたゆさん、みなぎさん、しゅんしゅんさんのものです (2020/12/1現在)) 自分もこんな感じのメルアイコンが欲しい!!ということで機械学習でメルアイコン生成器を実装しました!!.......というのが前回の大まかなあらすじです。 今回は別の手法を使って、キャラの画像をメルアイコンに変換するモデルを実装しました。例えばこんな感じで変換できます。 実装したコードはこちら 本記事ではこれに用いた手法を紹介していきます。 GANとは 画像の変換にあたってはUGATITという手法を使って

                                                            メルアイコン変換器を作った話 - Qiita
                                                          • ありがとうディープラーニングおじさん - karaage. [からあげ]

                                                            最初に その後のディープラーニングおじさんの話です。シンデレラの続きみたいなものなので、読まないほうが夢を壊さないかもしれませんということだけ、ここで注意喚起いたします。 この記事、ずっと下書きに入ったまま公開しようか迷っていたのですが、ディープラーニングおじさんのご家族にもご了承いただき、公開することにしました。そこまで拡散は希望していないのですが、特に制限するつもりはありません(できません)。 ディープラーニングおじさんとの出会い振り返り ディープラーニングおじさん(以下Dおじさん)とは、今だに私のブログでトップのPV数を誇る記事の主役です。 上記記事ではあっさり書いていますので、もうちょっと解像度高く思い出しながら振り返ってみたいと思います。 そもそもの出会いは、社内で異動した後、たまたま隣の課にDおじさんがいたことからはじまります。Dおじさんは、私より一回り以上上の年齢(50代後半

                                                              ありがとうディープラーニングおじさん - karaage. [からあげ]
                                                            • 月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita

                                                              何をした? Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。 今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと 月ノ美兎 さん(Youtubeチャンネル) です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。 成果 動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います

                                                                月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita
                                                              • Google はどうやって Deep Learning でメモリ使用量を 99% 削減したか。

                                                                NewsPicksのエンジニア採用サイトです。さまざまな強みを持つエンジニアが、自分たちの個性を活かし、未来を創るための挑戦をしてる自由な環境で、一緒に世の中をおもしろくしてみませんか?

                                                                  Google はどうやって Deep Learning でメモリ使用量を 99% 削減したか。
                                                                • 日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】|kun1emon

                                                                  ⚠️注意今回公開するのはLoRAを用いて作成したLLaMAの日本語化Adapterでありモデル自体ではありません。 LoRAをマージするベースのLLaMAは商用不可であり、今回公開するAdapterで日本語化したモデルも商用利用はできません。 OpneAIの利用規約で、OpenAIサービス、ChatGPTの出力結果を競合モデル開発用途に利用することはできません コンテンツ生成者はできません。 詳細は記事後半で述べていますが利用規約が適用されるのはコンテンツ生成者までです。 概要2022年の11月末にOpenAIからChatGPTが発表されてから、それに追随するようにGoogleからBard、MetaからLLaMAなど大規模言語モデル(LLM)が発表されました。さらにLLaMA 7Bを「text-davinci-003」を用いて「Self-Instruct」で作成された52Kのデータセット(

                                                                    日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】|kun1emon
                                                                  • 商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生|DTMステーション

                                                                    ドイツMAGIXから定番の波形編集ソフトの新バージョン、SOUND FORGE Pro 18およびSOUND FORGE Pro 18 Suiteがリリースされました。今回のバージョンアップの目玉はAIを利用した音声合成機能を搭載し、日本語でテキストを入力すると、非常にリアルで自然な声で、そして高音質なサウンドで喋り声が生成されることです。VOICEPEAKやVOICEVOX、A.I.Voice、CoeFont……などなど、ここ数年で急速に進化し、数々のソフトが出てきたTTS=Text to Speech(音声読み上げソフト)の世界にSOUND FORGEが殴り込みをかけてきた格好です。しかも単なるTTSに留まらず、翻訳機能も搭載。これによって最大100言語へ翻訳して喋らせることも可能になっているため、グローバルなコンテンツ制作も可能になっています。 さらにStoryblocksという音素

                                                                      商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生|DTMステーション
                                                                    • オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)

                                                                      今回の発表で強く感じたことは、やはりOpenAIの目指すChatGPTが単なるチャットアプリケーションではないということだ。 従来のオペレーティングシステム(OS)はハードウェアとアプリケーションの架け橋である。だがOpenAIはChatGPTを「言語で命令できるオペレーティングエージェント」と位置付け、人生のあらゆるタッチポイントで新たなゲートキーパーとなろうとしているように思える。 IT競争は手前の取り合い歴史を振り返れば、IT競争の常道とは、ゲートウェイを手前に築くことにあったようだ。PCの争いをOSが無意味化し、OSの争いをブラウザが、ブラウザの争いを検索エンジンがと、そしてそれをスマホとアプリが…このようにITの争いは常に手前を争うものだった。こうして一番手前を抑えた企業は、大きな利益を手に入れた。 今、OpenAIの動きは、このメタゲームに大きな変化を加えつつある。 OpenA

                                                                        オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)
                                                                      • 【速報】次世代の外観検査!?プロンプトを駆使した異常検知 - Qiita

                                                                        先日、革新的な画像の異常検知(SAA)が出てきました。 何やら革命的な臭いがする... SAMを使った異常検知手法https://t.co/wmwFcbULdq コードはこちらhttps://t.co/3npK3FhnEz pic.twitter.com/JDs30bEJyQ — shinmura0 (@shinmura0) May 22, 2023 本稿では、操作手順 & 触ってみた感想をご報告します。 特長 本題に入る前に、どこら辺が革新的なのかざっくり説明します。 ※ SAAの詳細は論文をご参照ください。 学習データは不要 通常、学習(正常)データを数百枚用意しますが、この手法では正常データを必要としません。 ドメイン知識を導入できる 予め、異常の傾向をプロンプトに入れることにより、異常の特徴をモデルに教えることができます。 二点目が特に大きく、今までの異常検知では、積極的に異常の傾

                                                                          【速報】次世代の外観検査!?プロンプトを駆使した異常検知 - Qiita
                                                                        • 教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場!

                                                                          3つの要点 ✔️相互情報量を最大化する枠組みでニューラルネットを学習する教師なし学習手法IICの提案 ✔️予測値をそのまま出力するニューラルネットを学習可能であるため、クラスタリングが不要 ✔️従来の教師なし学習手法の「クラスタが一つにまとまってしまう問題」および「ノイズに弱いという問題」を解決 Invariant Information Clustering for Unsupervised Image Classification and Segmentation written by Xu Ji et.al (Submitted on 22 Aug 2019) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 近年、様々な場面において、深層学習手法が使用さ

                                                                            教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場!
                                                                          • Stable Diffusion から特定の概念を忘れさせる学習を行ってみる

                                                                            TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよ マイナス適用によって、概念を削除するだけでなく強調することもできたよ 一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。 論文とかどうでもいいから学習方法知りたい! という方は 実際に学習してみる へどうぞ! 今回作成したもの コード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。 本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の

                                                                              Stable Diffusion から特定の概念を忘れさせる学習を行ってみる
                                                                            • 世界最大規模のディープラーニングを「富岳」で実施して世界一になりました - fltech - 富士通研究所の技術ブログ

                                                                              はじめに こんにちは。富士通株式会社ICTシステム研究所のMLPerf HPC五人衆です。先週、国際学会SC’21 において、理化学研究所/富士通が共同で開発した新しいスーパーコンピュータ(スパコン)「富岳」がスパコンランキングで4期連続の4冠(TOP500, HPCG, HPL-AI, Graph500)を獲得しましたが、同会議で発表された、実際のディープラーニング(DL)学習処理に特化したMLPerfTM HPC ベンチマークにおいても世界一を獲得しました。 本ブログでは、このMLPerf HPCの一つのアプリケーションであるCosmoFlowの学習を「富岳」で大規模に行い世界一となった、その挑戦についてお話させてもらいます。 はじめに 背景 MLPerf HPCって何?(白幡) CosmoFlowって何?(田渕) 「富岳」って何?(田渕) プロセッサ 通信ネットワーク ストレージ 準

                                                                                世界最大規模のディープラーニングを「富岳」で実施して世界一になりました - fltech - 富士通研究所の技術ブログ
                                                                              • ChatGPTやGoogleのBardに匹敵する精度の日本語対応チャットAI「Vicuna-13B」が公開されたので使ってみた

                                                                                カリフォルニア大学バークレー校などの研究チームがオープンソースの大規模言語モデル「Vicuna-13B」を公開しました。Vicuna-13BはOpenAIのChatGPTやGoogleのBardに近い精度で回答を生成でき、日本語にも対応しているとのこと。実際に動かせるデモも公開されていたので、使ってみました。 Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | by the Team with members from UC Berkeley, CMU, Stanford, and UC San Diego https://vicuna.lmsys.org/ GitHub - lm-sys/FastChat: An open platform for training, serving, a

                                                                                  ChatGPTやGoogleのBardに匹敵する精度の日本語対応チャットAI「Vicuna-13B」が公開されたので使ってみた
                                                                                • 生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ

                                                                                  かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りました。それがこちらです。 もう読んで字の如しで「ChatGPTが登場して以来学術論文に使われる単語のレパートリーが劇的に変わってしまった」というのを、実際に具体的なデータに基づいて示した論文です。割と短めの読みやすい論文であることと、先述したようにSNSでは頻繁に噂されていた推測を明確化したということもあり、折角ですのでこのブログで簡単に紹介してみようと思います。 Preprintあげたのでご報告!📣 ChatGPTが使いがちな英単語ってありますよね。「delve」「realm」「utilize」あたり。 (限界助教先生の記事

                                                                                    生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ