並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 2906件

新着順 人気順

"Stable Diffusion"の検索結果281 - 320 件 / 2906件

  • 画像生成AI 速いマシンは世界が違う (1/4)

    「Stable Diffusion」のような画像生成AIは、ゲーム開発の場面で実際に使い物になるのでしょうか。マウスコンピューターのクリエイター向けPC「DAIV」のDAIV DD-I9G90(NVIDIA GeForce RTX 4090搭載)とDAIV DD-I7N60(NVIDIA RTX A6000搭載)を比較しながら、筆者が開発に関わるインディゲーム「Project-GENESIS」での背景のプロトタイプ制作を通じて、その可能性を探りました。画像の出力(生成)速度だけであればRTX 4090に圧倒的に軍配が上がりますが、複数のアプリをまたがった作業をする場合にはVRAM(ビデオメモリ)搭載量が48GBと多いRTX A6000が生産性を高めると考えて良さそうです。コンピュータの世界ではいつの時代も「速さは正義」であることを、画像生成AIを実践で使おうとして改めて痛感しました。 2機

      画像生成AI 速いマシンは世界が違う (1/4)
    • Stable Diffusionによる生成AIの基本から最新テクニックまで。グラビアカメラマンが教える、生成AIグラビア実践ワークショップ(第4回)参加者募集 | テクノエッジ TechnoEdge

      テクノエッジ編集部では、生成AIグラビア実践ワークショップ第4回を開催します。講師は、人気連載「生成AIグラビアをグラビアカメラマンが作るとどうなる?」の著者である西川和久さんです。 高価なゲーミングPCがなくても自分で高速な画像生成ができるサービス「生成AI GO」を無料で使いながら、生成AIに関する知見とグラビアカメラマンとしての豊かな経験から得られた最新かつ実践的なテクニックを学べます。 なお、ワークショップ内で使用するプロンプトは、受講者向けにドキュメントとして公開し、その場でコピペするだけで画像生成を体験できる、非常に簡単な仕組み。生成した画像はその場で自分のパソコンに保存できます。 第4回は、1月23日、オンラインにて開催いたします。なお、今回お申し込みいただいた方は、第3回の動画アーカイブを視聴いただけます。 グラビアカメラマンが教える、生成AIグラビア実践ワークショップ 申

        Stable Diffusionによる生成AIの基本から最新テクニックまで。グラビアカメラマンが教える、生成AIグラビア実践ワークショップ(第4回)参加者募集 | テクノエッジ TechnoEdge
      • AIが中国で既にイラストレーターの仕事を奪い始めている、現場の悲鳴と実際にどのようにAIが用いられているのかをまとめたレポートが公開

        Stable DiffusionやMidjourneyの登場により、画像生成AIに対する期待は爆発的に高まっており、今やWindowsの標準ブラウザであるEdgeにも画像生成AI機能が搭載されています。そんな画像生成AIの活躍により、中国のゲーム業界ではさっそくイラストレーターたちが仕事を奪われつつあると、テクノロジーメディアのRest of Worldが報じました。 AI is already taking video game illustrators’ jobs in China https://restofworld.org/2023/ai-image-china-video-game-layoffs/ 2022年にDALL-E 2が登場して以来、MidjourneyやStable Diffusionといった画像生成AIが登場し、ユーザーはテキストから非の打ちどころのないイラストを

          AIが中国で既にイラストレーターの仕事を奪い始めている、現場の悲鳴と実際にどのようにAIが用いられているのかをまとめたレポートが公開
        • AIが作った画像が喋る 動画生成サービス「Creative Reality Studio」登場 「GPT-3」「Stable Diffusion」を利用

          生成系AIの開発などに取り組むイスラエルのD-IDは12月14日、画像が喋る動画を生成できるサービス「Creative Reality Studio」を開発したと発表した。プロンプトを基に、AIが画像や喋らせたい内容を生成。それらを自動合成し、動画として出力する。

            AIが作った画像が喋る 動画生成サービス「Creative Reality Studio」登場 「GPT-3」「Stable Diffusion」を利用
          • 漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!|AICU media

            4月に入り、X や kindle インディーズで AI で漫画を見かける機会が増えてきました。最近のイラスト系画像生成 AI では、漫画が流行の兆しを見せてきているようです。 参考:SD黄色本 そこで AICU media では、「AI で漫画を作ってみたいけど、どのモデルを使えばいいんだろう…」という方向けに、白黒漫画制作に適した Stable Diffusion のモデルを調査しました! Animagine 3.1まずはアニメ系 SDXL の主流モデルとなっている「Animagine」の最新バージョンである Animagine 3.1 でモノクロイラストを生成してみましょう。 プロンプト「best quality , monochrome , lineart,1girl, bob cut, flat chest , short hair , school uniform, round_

              漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!|AICU media
            • 最近の話題にも詳しい14億パラメータの日本語LLMの公開

              Research部門の近江崇宏です。 今回、ストックマークは最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM(大規模言語モデル)をオープンソースとして公開します。モデルはHugging Face Hubからダウンロードいただけます。 https://huggingface.co/stockmark/gpt-neox-japanese-1.4b 当社はビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっております。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ(2023年6月まで)も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発しました。具体的には、事前学習に用いたデータセットはCC100の

                最近の話題にも詳しい14億パラメータの日本語LLMの公開
              • 画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される

                「人工知能」と称してアーティストやその他のクリエイターの権利を侵害する製品を作りだしたとして、Stability AI、Midjourney、DeviantArtの3社に対して集団訴訟が提起されました。 Stable Diffusion litigation · Joseph Saveri Law Firm & Matthew Butterick https://stablediffusionlitigation.com/ AI Art Generators - Copyright Litigation https://www.saverilawfirm.com/ai-art-generators-copyright-litigation Class Action Filed Against Stability AI, Midjourney, and DeviantArt for DMCA

                  画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される
                • 今年の書初めコーディングはAITuberを創る!

                  はじめに あけましておめでとうございます。去年は何といってもAIの年でした。ChatGPTやStableDiffusionが2022年末に登場してから、想像を超えてAI周りが進化しましたね。今回は年の初めという事もあり、前から興味のあったAITuberを作ってみる事にしました。 「AITuberを作ってみたら生成AIプログラミングがよくわかった件」 って本も買ったし。LLM部分だけでは無く、OBSやYouTubeのコメント取得などAITuberに必要な内容が一式揃っていて非常に参考になりました。 また、私はプログラミングは多少できますが、イラストや音楽に関しては全くスキルの無い人間です。そのためそのあたりに関してはStable DiffusionやSunoAIの力を借りて作っているので、結果的にオール生成AIという感じですね。そのあたりも含めて記事にまとめたいと思います。 TL;DR 素の

                    今年の書初めコーディングはAITuberを創る!
                  • Stable Diffusion WebUI(1111)をGoogle Colabで使うノートブック【画像も設定も自動保存】 - ただいま村

                    いきなり追記(4月22日) Google Colaboratoryの無料プランではSD/WebUIを使えなくなったようです。以下の記事をご覧ください。 Google Colabの無料プランでStable Diffusionを使えなくなったらModalへ行こう? (追記は以上) パソコンにGPUがない人向けに、AUTOMATIC1111版Stable Diffusion WebUI(以下SD/WebUI)をGoogle Colaboratoryで使うノートブックを作りました。下のGithubからどうぞ。 imamurayusuke/SD1111_colab: AUTOMATIC1111/Stable Diffusion WebUIをGoogle Colaboratoryで使うためのipynb この種のノートブックはいろいろあるのですが、自分が考える仕様を満たすものがなかったため自分で作った次

                      Stable Diffusion WebUI(1111)をGoogle Colabで使うノートブック【画像も設定も自動保存】 - ただいま村
                    • rinna社、日本語に特化した画像生成モデル「Japanese Stable Diffusion」を公開

                      弊社ではCookieを使用してWebサイトのトラフィックを分析し、Webサイトでのお客様の体験を最適化しています。弊社によるCookieの使用に同意されると、お客様のデータは他のすべてのユーザーデータと共に集計されます。

                        rinna社、日本語に特化した画像生成モデル「Japanese Stable Diffusion」を公開
                      • AIの歴史と現在の問題 - デマこい!

                        ジョン・ヘンリーの教訓 19世紀の都市伝説に「ジョン・ヘンリー」という人物がいます[1]。 彼は屈強な肉体労働者で、ハンマーを振るって岩に穴を開ける達人でした。ところが蒸気機関で動くドリルの登場により、彼は失業の危機に瀕します。そこで彼は、人間は機械よりも優れていることを示すために、穴開け競争で蒸気ドリルに戦いを挑んだというのです。 伝説によれば、ジョン・ヘンリーは(驚くべきことに)僅差で勝利を収めたとされています。しかし、あまりにも肉体を酷使したために、勝利の直後にその場で倒れて帰らぬ人になりました。周囲の野次馬たちは言いました。「彼は人間らしく死んだ」と。 この逸話から得られる教訓は何でしょうか? 「機械と競い合うのは命にかかわる」とか「バカバカしい」とかではないと私は思います。それはあまりにも表層的な解釈です。生成AIが躍進する現在、ジョン・ヘンリーは遠い過去の伝説ではありません。現

                          AIの歴史と現在の問題 - デマこい!
                        • 生成AIグラビアをグラビアカメラマンが作るとどうなる?第11回:Stable Diffusion 1.5の注目ModelやLoRAを紹介+α版 (西川和久) | テクノエッジ TechnoEdge

                            生成AIグラビアをグラビアカメラマンが作るとどうなる?第11回:Stable Diffusion 1.5の注目ModelやLoRAを紹介+α版 (西川和久) | テクノエッジ TechnoEdge
                          • 【西川和久の不定期コラム】 Stable Diffusionで写真1枚から顔を似せるには?いろいろなFaceコントロールを試してみる

                              【西川和久の不定期コラム】 Stable Diffusionで写真1枚から顔を似せるには?いろいろなFaceコントロールを試してみる
                            • ひろゆき「法人向けなんて到底無理」の真意とは? なぜ、話題の画像生成AIはビジネスとして成立しないのか - エンジニアtype | 転職type

                              日々プロダクトに向き合うエンジニアのみなさんにヒントをお届けすべく、日本最大の電子掲示板『2ちゃんねる(現5ちゃんねる)』を立ち上げた、ひろゆきさんを迎えた本連載。国内外のプロダクトを、ひろゆきさんはどうみるのか? ひろゆきさんが開発者ならどこをブラッシュアップするのか?そんなことを、毎回話題のプロダクトを取り上げながらお届けすることでプロダクト開発で大切なことを探っていきます。 今、巷で注目を集めるプロダクトに対し、ひろゆきさんの見解を語ってもらいながら、「プロダクトづくりで大切な視点を学んでいこう」という本連載。 二回目となる今回取り上げるのは、誰でも簡単に画像が生成できる『Akuma.ai』です。 Akuma.ai:https://akuma.ai/ Kinkaku株式会社:https://www.kinkaku.com/ 現在は個人向けに作られている同プロダクトだが、「いずれは企業

                                ひろゆき「法人向けなんて到底無理」の真意とは? なぜ、話題の画像生成AIはビジネスとして成立しないのか - エンジニアtype | 転職type
                              • Stable Diffusion開発元、独自の大規模言語モデル「StableLM」をGitHubで公開し、商用利用も可能。チャットAI「StableChat」は数カ月後 | テクノエッジ TechnoEdge

                                Stable Diffusionの開発で知られるAI企業Stability AIは、オープンソースの大規模言語モデル(LLM)「StableLM」を発表しました。 現在GitHubで公開中のアルファ版では30億パラメータと70億パラメータのモデルを提供。GitHubリポジトリで公開しています。150億パラメータから650億パラメータのモデルも提供する予定です。ライセンスはCC BY-SA-4.0で、商用または研究目的で利用できます。 GPT-3と比較して小規模なパラメータ数であるにも関わらず、「会話やコーディングのタスクで驚くほど高い性能を発揮する」という性能をうたう背景には、1.5兆トークンのコンテンツを含む、実験用データセットがあると説明しています。 StableLM with human feedback (RLHF) でファインチューニング(微調整)された研究モデル一式も公開。Al

                                  Stable Diffusion開発元、独自の大規模言語モデル「StableLM」をGitHubで公開し、商用利用も可能。チャットAI「StableChat」は数カ月後 | テクノエッジ TechnoEdge
                                • 画像生成AI「Stable Diffusion」などの開発に大きな貢献を果たした超巨大データセット「LAION-5B」とは?

                                  AIを構築する上ではアルゴリズムだけでなく訓練用のデータセットも重要であり、データセットの質によってAIの精度も大きく左右されます。高精度な画像生成AIとして話題のStable Diffusionでは、「LAION-5B」という50億以上もの画像とテキストのペアを含むデータセットを用いています。 LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS | LAION https://laion.ai/blog/laion-5b/ 大規模な機械学習モデルやデータセット、関連コードなどの一般公開を掲げる「Large-scale Artificial Intelligence Open Network(LAION)」というドイツの非営利団体は、2022年3月に超巨大なデータセットである「LAION-5B」をリリースしました。LAI

                                    画像生成AI「Stable Diffusion」などの開発に大きな貢献を果たした超巨大データセット「LAION-5B」とは?
                                  • 日本人の75%がAIを「役に立つ」とする一方で2%が「悪の権化」と評価、アメリカの別調査ではAIが人類を脅かす可能性があると61%が信じており66%以上が悪影響を懸念

                                    Stable DiffusionやMidjourneyなどの画像生成AI、GPT-4・Bard・LLaMAなどの大規模言語モデルを使った対話型チャットAIなど、画像や文章を自動生成できるジェネレーティブAIの開発が日進月歩の勢いで進んでおり、日常生活でもその技術が応用される例を目にする機会が増えています。そんなジェネレーティブAIが消費者や企業に与える影響についてのアンケート結果を、PhotoshopやIllustratorなどを開発するAdobeが発表しています。 アドビ、「デジタルエコノミー/ジェネレーティブAIが消費者と企業に与える影響」に関する調査結果を発表 https://www.adobe.com/jp/news-room/news/202304/20230420_adobe-digital-economy-survey.html この調査は、アメリカ・イギリス・デンマーク・オ

                                      日本人の75%がAIを「役に立つ」とする一方で2%が「悪の権化」と評価、アメリカの別調査ではAIが人類を脅かす可能性があると61%が信じており66%以上が悪影響を懸念
                                    • イラスト生成AIに対するよくある誤解 - Qiita

                                      イラスト生成AIに対するよくある誤解 目次 イラスト生成AIに対するよくある誤解 目次 はじめに 注意事項 AIは既存のイラストを切り貼りしている/コラージュしている 解説 ベクトルについて 厳密には「切り貼り」も間違いではない AIのイラストは既存のイラストの模倣である 解説 AIにひらめきは存在しない 解説 人間のイラストレーターを守るために、AIが描いたイラストを見分けるAIを作るべき 解説 AIで生成されたイラストは画質(解像度)で見分けられる 解説 イラスト生成AIは、学習元のイラストに酷似したイラストを生成する 解説 AIはイラストを無断で学習しており違法 解説 AIにイラストを学習させるのは無条件で合法 解説 AIが生成したイラストには著作権が存在しない 解説 AIを使えば狙ったイラストを簡単に生成できる 解説 おわりに 参考文献 更新履歴 はじめに Twitterを眺めてい

                                        イラスト生成AIに対するよくある誤解 - Qiita
                                      • 「受け入れられない」 クリスタ、画像生成AIの実装を見送り ユーザーから苦情相次ぐ

                                        イラスト作成ソフト「CLIP STUDIO PAINT」を販売するセルシスは12月2日、同ソフトに試験的に導入するとしていたAI画像生成機能について、搭載を見送ると発表した。ユーザーからの批判を受け、方針転換したとしている。 セルシスは「今後、このような懸念がある画像生成AIを用いた機能をCLIP STUDIO PAINTに搭載しない」と宣言。ユーザーに対し「皆さまの気持ちに寄り添えなかった」と謝罪した。 同社は11月29日、CLIP STUDIO PAINTにオープンソースの画像生成AI「Stable Diffusion」を活用した「画像生成AIパレット」という機能を試験導入すると発表していた。同機能はソフト上で「sea,moutain,forest,autumn」といったテキストを入力するとそれに合った画像をAIが自動生成するというもの。 発表後、ユーザーなどから「誰かの著作物を利用す

                                          「受け入れられない」 クリスタ、画像生成AIの実装を見送り ユーザーから苦情相次ぐ
                                        • 画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK&自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ

                                          (2022/09/22 17:52更新)画像生成AI「Stable Diffusion」を簡単に利用するための実行環境の1つである「Stable Diffusion web UI」のコントリビューター(開発貢献者)の1人であるAUTOMATIC1111氏が、フォークではないものの同名で「機能全部盛り」なStable Diffusion web UI(AUTOMATIC1111版)の開発を進めています。 GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI https://github.com/AUTOMATIC1111/stable-diffusion-webui ◆目次 1:AUTOMATIC1111版Stable Diffusion web UIでできること・対応していること 2:Google Co

                                            画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK&自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ
                                          • 画像生成AIは電子ウキヨエの夢を見るか?|情報処理学会・学会誌「情報処理」

                                            杉ライカ(ダイハードテイルズ) 画像生成AIは電子ウキヨエの夢を見るか? こんにちは,ダイハードテイルズ(DHTLS)の杉ライカです.DHTLSは商業出版だけでなくクリエイター自身のSNSもまた重要な作品発表の場と捉え,オンラインに軸足を置いて活動し続けているプロのクリエイターグループで,自作小説や翻訳小説などを,インターネット上で連載したり,各種出版社から書籍としても発刊してもらっています. ここでは,最近登場したtext-to-imageの画像生成AIサービス「Midjourney」を,自分たちのTwitter連載小説でどのように活用しているか,またそこから何を感じたかなどを,簡潔にレポートしてみたいと思います.まず,Twitterで小説といっても想像しにくい方も多いかと思いますので,DHTLSがどのように小説を連載したり(図-1),AI描画の挿絵を投稿したりしているのか(図-2),具

                                              画像生成AIは電子ウキヨエの夢を見るか?|情報処理学会・学会誌「情報処理」
                                            • 「オープンソースは脅威」「勝者はMeta」「OpenAIは重要ではない」などと記されたGoogleのAI関連内部文書が流出

                                              2022年から2023年にかけて、OpenAIが「GPT-4」を、Metaが「LLaMA」を、Stability AIが「StableLM」を発表するなど、大規模言語モデル(LLM)の開発競争が1年間で激化しました。同様に大規模言語モデルの「LaMDA」を開発してしのぎを削ろうとするGoogleが、競合他社を分析し、オープンソースの脅威について詳細を記した内部資料が、Discordの公開サーバーから流出しました。 Google "We Have No Moat, And Neither Does OpenAI" https://www.semianalysis.com/p/google-we-have-no-moat-and-neither 対話型AIの知名度を爆発的に高めた「ChatGPT」を開発するOpenAIは、対話型AIの分野で頂点に立っているとも分析できますが、Googleは「G

                                                「オープンソースは脅威」「勝者はMeta」「OpenAIは重要ではない」などと記されたGoogleのAI関連内部文書が流出
                                              • Stable Diffusion 2-1 - a Hugging Face Space by stabilityai

                                                Discover amazing ML apps made by the community

                                                  Stable Diffusion 2-1 - a Hugging Face Space by stabilityai
                                                • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                                                  画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                                                    無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
                                                  • Stable Diffusion 3 — Stability AI

                                                    Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy Announcing Stable Diffusion 3 in early preview, our most capable text-to-image model with greatly improved performance in multi-subject prompts, image quality, and spelling abilities. While the model is not yet broadly available, today,

                                                      Stable Diffusion 3 — Stability AI
                                                    • 画像生成AIを始めたいけどグラボが高価で諦めている人に朗報、安価なAPUでも大容量なVRAMを割り当てて画像生成可能

                                                      Stable Diffusionなどの画像生成AIは自身の所有するマシンにインストールしてローカルで実行することが可能です。しかし、快適な画像生成に必要な「大容量のVRAMを備えたグラフィックボード」はPCパーツの中でも高価な部類に入るため、予算の都合から画像生成を諦めている人も多いはず。新たに、安価なAPUでも実用的な速度で画像を生成できたという検証結果がAI関連YouTubeチャンネル「Tech-Practice」によって報告されています。 Democratize AI: turn a $95 chip into a 16GB VRAM GPU! Beats most of the discrete GPUs! | by Ttiotech | Aug, 2023 | Medium https://medium.com/@ttio2tech_28094/51a8636a4719 Demo

                                                        画像生成AIを始めたいけどグラボが高価で諦めている人に朗報、安価なAPUでも大容量なVRAMを割り当てて画像生成可能
                                                      • AIイラスト始め方の網羅的案内 2024年版 / だいたい未経験者向け|かいりん

                                                        前書き🤔これは何RIZさんという一見AIイラストレーターを装った風来のシレン廃人にそそのかされて作ったちちぷいチャレンジが多数の愉快犯たちにおもちゃにされた結果書かないといけなくなった記事です。 Stable DiffusionやMidjourney、Nijijourney、NovelAIの使い方を詳しく解説した文書は数あれど、ふだんパソコンを使わない一般の人向けまで踏み込んで網羅している解説記事って案外ないかもな?と思ったのもきっかけではある! 書く前からわかってたんだけどボリュームがヤバいので稚拙な表現や抜け漏れ多数だ。公開後もちょくちょく手を加える可能性大だから、もし更新が気になるようであれば筆者のX, Blueskyアカウントをフォローするなり、気が向いた時にこのnoteに戻ってきてくれよな!! しばらく前提条件を書いておくので、とっとと中身を読みたい人は飛ばしちゃってください。

                                                          AIイラスト始め方の網羅的案内 2024年版 / だいたい未経験者向け|かいりん
                                                        • インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog

                                                          地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 なんだかAIって流行ってますよねー こんにちわ。九州支社で細々と遊んで検証業務にいそしんでいるとみーです。 2022年3月から、どーしても「名前だけ知ってる状態」ってのにもやもやしていて、Deeplearningに手を付けたものの、あまりに内容が奥深すぎて沼にドはまりして周囲に「たすけてぇ、たすけてぇ」って叫んでいる素敵な日々を過ごしています。 取りあえず画像処理としてディープフェイク、NLP(Natural Language Processing:自然言語処理)として簡易チャットボ

                                                            インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog
                                                          • Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし

                                                            日本音響学会 学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル(と曲名)を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成 AI サービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無い UI と、 ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、 本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。 個人的には Suno AI について、以下のような所見を持っています。 Suno AI は

                                                              Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
                                                            • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                                                              OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                                                                音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                                              • なぜAIは「手」を描くことを苦手としているのかをアートと工学の専門家が解説

                                                                カリフォルニアのスタートアップであるStability AIによる「Stable Diffusion」や、Discordのコマンドを利用する「Midjourney」、アニメなどのイラストに特化した「NovelAI」のほか、Adobeが発表した著作権的にクリアな「Adobe Firefly」など、さまざまな画像生成AIが普及しています。画像生成AIはプロンプトを入力するだけでかなりリアルな人物や高クオリティなキャラクターイラストを生成できますが、AIが苦手としている表現やパーツもあり、中でも「人間の手」を描くのに失敗するケースが多くなっています。なぜAIは手を正しく描くことが得意ではないのかというメカニズムを、オンラインメディアのVoxが解説しています。 Why AI art struggles with hands - YouTube 画像生成AIによる人物やキャラクターはかなり高クオリテ

                                                                  なぜAIは「手」を描くことを苦手としているのかをアートと工学の専門家が解説
                                                                • 画像AIを調べると必ず出てくる謎のサイト「Hugging Face」ってナニモノ? 正体は急成長中の“ユニコーン”

                                                                  「Midjourney」や「Stable Diffusion」といった画像生成AIが登場して以降、「自分でも好きな画像を作ってみたい」と思う人も増えているのではないだろうか。実際にそうして調べていると、こんな表現に必ずと言っていいほど行き当たる。 「Hugging Face上でお手軽に試せます」「モデルはHugging Faceからダウンロード」「Hugging Faceのライブラリを」──。 例えばStable Diffusion(以下、SD)を使いたいなら、SDは英Stability AIが主立って公開しているものだから、同社Webサイトを参照するのが王道だ。するとソースコードや導入方法がまとまったGitHubのページに案内されるのだが、いざ説明を読むとやはりSDの学習済みモデルがHugging Faceというサイト上にあるのが分かる。 公式がそう案内しているから怪しくはないのだろうが

                                                                    画像AIを調べると必ず出てくる謎のサイト「Hugging Face」ってナニモノ? 正体は急成長中の“ユニコーン”
                                                                  • 失敗写真複数枚からベストショットを生成できるAI「RealFill」、Stable DiffusionのOutpaintingより圧倒的に正確

                                                                    写真を撮影していると「写真Aは人物の顔が見切れて、写真Bは顔が写ったけど逆光で暗すぎる」といったようにベストショットを撮影できないことがよくあります。Googleとコーネル大学の研究チームが開発したAI「RealFill」を使えば、複数の失敗写真をもとにベストショットを後から作り出せるとのことです。 RealFill https://realfill.github.io/ RealFillによる処理例はこんな感じ。以下の画像の左側が処理に用いる参考画像で、右側が参考画像をもとに生成されたベストショットです。参考画像には全身画像や背景が写る写真が含まれており、それぞれの要素をもとにベストショットが生成されています。 以下の例では、参考画像に「逆光ではないものの狭い写真」や「広範囲を写したものの逆光になった写真」が含まれており、参考画像をもとに広範囲かつ逆光ではない写真が生成されています。 以

                                                                      失敗写真複数枚からベストショットを生成できるAI「RealFill」、Stable DiffusionのOutpaintingより圧倒的に正確
                                                                    • 撮影の仕事はもうすぐAIで置き換わると思っていたらもうすでに来ていてびっくり「これは見抜くの難しい」

                                                                      リンク civitai.com Realistic Vision V1.3 | Stable Diffusion Checkpoint | Civitai Updated 02/15/23You can find news about this model as well as support me here: https://boosty.to/evgk.132I use this template to get good generation results:Prompt:RAW photo, *subject*, (high detailed skin:1.2), 8k uhd, dslr, soft lighting, high quality, f 12 users 15

                                                                        撮影の仕事はもうすぐAIで置き換わると思っていたらもうすでに来ていてびっくり「これは見抜くの難しい」
                                                                      • 騙されないよ! AI画像か否かを判断するWebサービス

                                                                        騙されないよ! AI画像か否かを判断するWebサービス2023.06.26 07:0023,261 岡本玄介 AI画像の判断はAIに任せよう。 日々進化し続け、今や本物と見分けがつかないほどリアルな画像を生成するAI。その動きをネットで見ていれば、AI生成画像は独特のマットな質感や背景をボカしたがる傾向、手指の描写がヘタクソといった特徴を知っていますが…そうでない人は、一発でダマされたっておかしくないほどのクオリティーです。 時にはネタで作られたフェイク画像が拡散されるうち、いつの間にか尾ひれがついて本物と勘違させられることもあるでしょうし、この先そういう事態が増える可能性は大いにあると思います。 AI画像を瞬時に解析そんなときに一度立ち止まって使ってみたいのが、画像がAIに作られたものなのかどうかを判定するOpticの「AI or Not」というサービス。 JPEGやPNGなどをドラッグ

                                                                          騙されないよ! AI画像か否かを判断するWebサービス
                                                                        • 画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた

                                                                          2023年7月に公開された「Stable Diffusion XL 1.0(SDXL 1.0)」は既存のStability AI製モデルと比べて高品質な画像を生成できるだけでなく、LoRAによる生成画像の調整にも対応しています。データサイエンティストのマックス・ウルフ氏は「悪い例」を集めて作成したLoRAを用いてSDXL 1.0による生成画像の品質をさらに向上させる手法を考案し、LoRAファイルおよび誰でも試せるデモを公開しています。 I Made Stable Diffusion XL Smarter by Finetuning it on Bad AI-Generated Images | Max Woolf's Blog https://minimaxir.com/2023/08/stable-diffusion-xl-wrong/ LoRAは参考となる画像を集めて絵柄や服装などを追

                                                                            画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた
                                                                          • 【Stable Diffusion】美少女イラスト生成におすすめのモデルデータまとめ40選+α【実写(フォトリアル)・2.5D・アニメイラスト】

                                                                            モデルデータに関するFAQモデルデータを使う際によくありそうな疑問をまとめていきます。 モデルデータってどこからダウンロードするの?基本的にCivitaiかHugging Faceの2択です。 これ以外の場所で入手できるモデルデータは、公式のものではないことがほとんどなので注意してください。 色々種類があるけど、どれをダウンロードすればいいの?基本的には1番バージョンが新しく、最も容量が大きいものをダウンロードしておけばOKです。 prunedとモデルデータの名前についているものは、元のモデルデータから不必要と思われる部分を削ってファイルサイズを小さくしているものです。 fp32は単精度浮動小数点演算、fp16は半精度浮動小数点演算を意味していて、学習の際に使われた手法が異なるようです。ただfp32の方が基本的に容量が大きく、モデルによっては2倍程度の差があります。

                                                                              【Stable Diffusion】美少女イラスト生成におすすめのモデルデータまとめ40選+α【実写(フォトリアル)・2.5D・アニメイラスト】
                                                                            • AIと人間、どちらが描いたかは意味がなくなる。日本初のAI画集(紙)を出すアーティスト、852話さんが考えていること | テクノエッジ TechnoEdge

                                                                              AIに呪文を唱えて絵を描く、AIイラスト・AI絵画の一大ブームが起きています。その先駆的サービスであるMidjourneyが公開されたと同時に飛びつき、オープンソース公開されたStable Diffusionはすぐに自分のマシンにインストールして制作を始めたアーティスト、852話(ハコニワ)さん。彼女がAIと共同で制作した画集「Artificial Images Midjourney / Stable DiffusionによるAIアートコレクション」が9月23日、インプレスR&Dから発売されます。これら新世代AI絵画によって生成した、紙の書籍としても出版される画集としては日本初。言葉さえ用意すれば誰にでも完成度の高い絵を描ける「AI絵画」に、なぜイラストレーターが積極的に取り組むのか、話を聞いてきました。 MidjourneyとStable Diffusionは、「スクリプト」と呼ばれる、

                                                                                AIと人間、どちらが描いたかは意味がなくなる。日本初のAI画集(紙)を出すアーティスト、852話さんが考えていること | テクノエッジ TechnoEdge
                                                                              • 架空のおじさん新聞と「普通」の生成

                                                                                架空のおじさん新聞と「普通」の生成 by kogu 2023年12月6日 生成AIの出力画像を元にCGで作った新聞っぽいフェイク画像をXに投稿したところ、想像以上の反響がありました。気軽な実験のつもりで説明も雑過ぎたため、伝わりにくかったり誤解されたりした部分もあるようです。どのように、なぜ作ったのか補足します。 AIで生成したおじさん使って適当な偽新聞のCGを作ったらとても危険な感じだった。文章だけでも危ないのに画像が入ると更に悪く、新聞っていう実績ある様式でもっと悪化する。 pic.twitter.com/ixKODQwxX5 — kogu (@koguGameDev) December 3, 2023 どのように作ったか 今回のフェイク新聞、作り方はかなり手抜きです。こうした制作に慣れている方なら30分もかからないでしょう。今はまだ多少専門性を求められますが、1年もすると「頑張れば誰

                                                                                  架空のおじさん新聞と「普通」の生成
                                                                                • 誰でもカーデザイナーになれる?「画像生成AI」にクルマを描かせてみた | レスポンス(Response.jp)

                                                                                  文字を打ち込むと画像を作ってくれる画像生成AI。3月には自動運転スタートアップのチューリングが、画像生成AIを活用してデザインしたコンセプトカーを発表した。誰でも使えるAIは、誰でもカーデザインできることを意味するのだろうか? 試してみた。 ◆Midjourneyというアプリ チューリングのコンセプトカーの開発で、デザインを担当した開発支援企業の日南は『Stable Diffusion』というアプリを使った。しかしこれ、いろいろ調べたら、筆者のパソコンには荷が重い。動いたとしても、かなり遅くなりそうだ。 そこで選んだのが『Midjourney』だ。こちらは『Discord』というチャットサービスのなかで使う画像生成AI。クラウド上で画像生成するので、端末の性能に依存しない。スマホやタブレットでも使える。ただし『Stable Diffusion』が無料で使えるのに対して、『Midjourne

                                                                                    誰でもカーデザイナーになれる?「画像生成AI」にクルマを描かせてみた | レスポンス(Response.jp)