「動くAIグラビア・AI美女を生成したい」 「AnimateDiffでBRAV6モデルを利用したい」 このような場合には、この記事の内容が参考になります。 この記事では、BRAV6を用いた美女のアニメーション生成について解説しています。 本記事の内容 AnimateDiffへのモデル追加(BRAV6)AnimateDiffにおけるconfigファイル作成BRAV6を用いたGIFアニメの生成 それでは、上記に沿って解説していきます。
2023/04/20 (更新日: 2023/09/29) 【Stable Diffusion】美少女・女の子イラスト用の呪文(プロンプト) AIイラスト ※当ブログはアフィリエイト・アドセンスによる収益で運営されています。 どうやったら美少女のイラストを作れる? でもどんな呪文(プロンプト)を入力すべき? こういったお悩みにお答えします。 Stable Diffusionで美少女のイラストを生成しようと思っても、どんな呪文(プロンプト)を入力すればいいかわからないですよね。 的外れな呪文ばかりを打ち込んでいたら、欲しいイラストはいつまでも手に入らないまま…。 この記事では 生成結果は使用モデルやイラストのサイズで大きく変わる 【Stable Diffusion】美少女・女の子イラスト用の呪文(プロンプト) 他の人の呪文(プロンプト)が一目で確認できるサイト3選! 呪文(プロンプト)だけでな
はじめに こんにちは。 一昨日、土日を1日潰してLatent Cosistency Model(LCM)の推論高速化に取り組んでみたところ、そこそこ上手くいき、512×512pxの画像をimage-to-image(img2img)するタスクにおいてRTX3090で26fps、A100で33fpsの推論速度が出るようになりました。 【追記】RTX4090だと45fps出たそうなので、記事のタイトルをわずかに更新しました。記事作成当時はA100で検証していたので、以下ご了承ください。 画像1枚につき0.03秒で処理できていることになるので、ほぼリアルタイムで変換できていると言ってもいいのではないでしょうか。 プログレスバーが1%進むごとに1枚の画像のimg2imgが完了しています。気持ちいいですね。 そこで、この記事では、当高速化に取り組んだとき経験的に(理論的にではない)得られた、LCM推
イギリスのスタートアップ・Stability AIが、画像生成AI・Stable Diffusionのバージョン2.0に当たる「Stable Diffusion 2.0-v」をリリースしたと発表しました。Stable Diffusion 2.0-vはLAION-5Bから作成されたサブセットで学習しており、デフォルトの出力画像解像度は768×768ピクセルも選択可能となりました。さらに画像解像度を4倍に高めるUpscaler Diffusionモデルも含まれているため、2048x2048ピクセルあるいはそれ以上の解像度の画像を生成できるようになっています。 Stable Diffusion 2.0 Release — Stability.Ai https://stability.ai/blog/stable-diffusion-v2-release GitHub - Stability-AI
「Deforum Diffusion」と「Waifu Diffusion」によるAI動画生成を試したので、手順をまとめました。 ・Deforum Stable Diffusion v0.4 ・Waifu Diffusion v1.2 1. Deforum Stable Diffusion「Deforum Stable Diffusion」は、「Stable Diffusion」でズームやシフトさせながら画像生成を繰り返すことで、印象的な動画を作成できるColabノートブックです。 以下のColabノートブックを開いて、上から順番に実行していくことで動画生成することができます。 ・Deforum Stable Diffusion v0.4 2. Setup(1) 「NVIDIA GPU」のセルを実行。 Colabに割り当てられたGPUの情報が表示されます。 Tesla P100-PCIE-1
はじめにコピー機学習法は、LoRAを教師画像と同様の画像しか出力されないレベルまで過学習し(コピー機と呼ばれる理由です)、そこから目的のLoRAを取り出す手法です。詳細は以下の月須和・那々氏の記事をご覧ください。 今回、SDXLでコピー機学習法を試してみました。品質的にはいまひとつですが、一応成功はしましたので、設定等を共有します。 学習にはsd-scriptsを利用しています。 教師データとりにく氏の画像を利用させていただきます。 SDXLにおけるコピー機学習法考察(その1) ①まず生成AIから1枚の画像を出力(base_eyes)。手動で目をつぶった画像(closed_eyes)に加工(画像1枚目と2枚目) ②画像3枚目のレシピでまずbase_eyesを学習、CounterfeitXL-V1.0とマージする ③②のモデルをベースに4枚目でclosed_eyesを学習 pic.twitt
まずはじめに、前回の記事を読んでくださった皆様。 ありがとうございます。 初めてのnoteへの投稿でどのくらい読まれるか、読みにくくないかなどの不安もありましたが、想像以上の反応をいただけました。 今回はその第二弾の記事になります。 本来はimg2img編を書くつもりだったのですが、ちょっと他の用事をしている間にケモノ特化のモデルが登場していたので先にそちらを紹介します。 この記事では主にモデルを変えたときの出力結果を紹介していきます。 前回のようなPromptの内容についての詳しい解説はしません。 e621, explicit content, kawaii, bangs, black long hair, art by [[hokusai katsushika]], gil elvgren, norman rockwell, thomas kinkade, intricate deta
はじめに こんにちは。 前置きが思いつかないので、突然本題に入ります。 Stable Diffusionをはじめとする、Latent Diffusion Model(以下LDM)の追加学習手法は、その登場以来様々なやり方が提案されてきました。 例えば、学習データの表現を語に埋め込み、txt2imgの結果を直感的に操作するTextual Inverisionや、学習データによってDenoising U-Netのパラメータを変換するDNNを挿入するHyperNetworksはその代表的な手法です。 しかし、どの手法にも良い点と悪い点があり、こちらが決定的に良い、ということはなく、追加学習によるアウトカムの良し悪しを決定する最も大事なことは変わりません。 それは、適切な学習データを用意することです。 しかし、適切な学習データとは何か?という話はなかなか簡単に済ませられる話ではなく、モデルやタスク
こんなんじゃ中国に勝てませんよ! いくつかの課題をクリアすると、「実行できるタスクはありません」状態になった。その下には、私の提出した内容はチェックを受け、48時間以内にフィードバックが送られてくると書いてある。 ノートパソコンを閉じる前に、参加可能になったRemotasksのドイツ語要員のチャットを覗いてみた。そこには質問と苦情が入り混じっていた。 私はコワーキングスペースの角のカフェに行き、テラス席に座った。ツイッターを見ると、私の上司に当たる人物が米下院の軍事委員会で発言している様子が中継されているというので、それを開いてみた。 いささかオーバーサイズのスーツを着たその人物、スケールAI創業者のアレクサンダー・ワンは、最初の挨拶をするところだった。 「新しいタイプの戦争がおこなわれる時代の幕開けに、ここでこうしてお話しできることを光栄に思います。これからの時代、AIが支配的になるなか
「Midjourney」は、テキストから画像を生成する強力な人工知能(AI)で、ありとあらゆる画像を生成できると言ってもいいほどだ。しかし、これまではコミュニケーションサービス「Discord」経由でしか利用できず、特に使いやすいプラットフォームとは言えなかった。そのMidjourneyが今回、より簡単に素早く画像を生成できるという専用のウェブサイトを開設した。 Midjourneyの最高経営責任者(CEO)David Holz氏によると、このウェブサイトは現在アルファ版で、まずはDiscord上のMidjourneyで作成した画像が1万枚を超えるユーザーだけが利用できるという。Midjourneyを使ったことがある場合、生成した画像の枚数を確認するには、Midjourney Botが含まれるDiscordのチャンネルで「/info」と入力すればいい。 Midjourneyがサービスを開始
Stable Diffusion の web UI でありバックエンドでもある ComfyUI について、主にアーティスト向けに、内部動作や背景にある理論も含めて感覚的に捉えられるように解説していきます。 (充実しつつある公式 README や公式サンプルに書いてあることは、多分このサイトでは説明しません) 重要な外部リンク ComfyUI 公式リポジトリ ComfyUI 公式サンプル ComfyUI 公式チュートリアル (未完らしい) 有志によるマニュアル (ほぼ準公式) 最近の主な更新 公式に取り込まれた: ConditioningConcat 新ノード: ConditioningZeroOut SDXL 関連のノード追加: CLIPTextEncodeSDXL、CLIPTextEncodeSDXLRefiner モデルの保存が出来るようになった: CheckpointSave SDX
Jay Alammar Visualizing machine learning one concept at a time. @JayAlammar on Twitter. YouTube Channel Translations: Chinese, Vietnamese. (V2 Nov 2022: Updated images for more precise description of forward diffusion. A few more images in this version) AI image generation is the most recent AI capability blowing people’s minds (mine included). The ability to create striking visuals from text desc
完全に自分目線の歴史です。時系列は適当なこともあるよ。 2022/8 モデルが公開されましたが、学習を始めた人は一部だけでしょう。 Stable Diffusionリリース 22日 これまでの画像生成AIと違いモデルがオープンになったことで、誰でも自由に学習できるようになりました。StabilityAIが公開したコードには学習コードも含まれていたので、技術力さえあればこの時点で学習できたのかな。コードやモデルファイルはStabilityAIによるコードと、HuggingfaceのDiffusersライブラリの二つに分かれており、今でも混乱の原因になっている気がします。 Textual Inversion論文自体はStable Diffusionの公開直前くらいに出たもののようですね。学習方法として最初に流行った方法で、27日には日本語記事が出てますね。はやい。 この頃はStabilityA
画像生成AIのStable Diffusionなどのトレーニングには、約58億5000万もの画像とテキストの組み合わせからなるデータセット「LAION-5B」が用いられています。新たに人権NGOのヒューマン・ライツ・ウォッチ(HRW)が、LAION-5Bにはブラジルの子どもたちの写真が同意なしで使われており、多くの子どもたちは身元まで追跡可能であると報告しました。 Brazil: Children’s Personal Photos Misused to Power AI Tools | Human Rights Watch https://www.hrw.org/news/2024/06/10/brazil-childrens-personal-photos-misused-power-ai-tools AI trained on photos from kids’ entire chi
Google製PaLM 2、最先端AI GPT-4や 話題のAIチャットChatGPTを始め、画像生成AIが無料で使える! 現代のビジネスにおいて、迅速かつ効率的なコミュニケーションが求められる中、AIOneは多種多様なビジネスAIの提供を通じて、あなたのビジネスを次のレベルへと導きます。
DeepMindのマルチモーダルモデル「Flamingo」をオープンソースで再現したフレームワーク「OpenFlamingo」がリリースされました。これにより、ユーザーが手軽にテキストと画像を含む大規模なコーパスを利用できるようになります。 Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION https://laion.ai/blog/open-flamingo/ GitHub - mlfoundations/open_flamingo: An open-source framework for training large multimodal models https://github.com/mlfo
Update V2.5 has been updated for ease of use as anime-style model. I use this embedding for negative prompts. https://huggingface.co/datasets/gsdf/EasyNegative Share by-products V2.1…Feeling of use similar to V2.0 V2.2…NSFW model Counterfeit-V2.5 e.g. ((masterpiece,best quality)),1girl, solo, animal ears, rabbit, barefoot, knees up, dress, sitting, rabbit ears, short sleeves, looking at viewer, gr
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第39回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 実写動画をアニメ映像に変換など、動画をプロンプトで高品質に編集できるAIモデル「FRESCO」 既存モデル同士を掛け合わせて新しい高品質LLMを自律的に作り出す手法、AIベンチャー「Sakana AI」が開発 高品質なステレオ音楽を生成できるボコーダー「MusicHiFi」をAdobeなどが開発 900FPS以上で写真のような高品質な大規模3Dシーンをリアルタイム生成する「RadSplat」をGoogleなどが開発 Soraの再現を目指すオープンソースText-to-Videoモデル「O
Stability AI日本チームの施策 CGW:本日はよろしくお願いいたします。まずは自己紹介をお願いいたします。 ジェリー・チー(以下、ジェリー):Stability AI日本チームを統括しているジェリー・チーと申します。来日して13年で、もともと機械学習を創造力に活かすことに強い興味がありました。昨年頃から画像生成AIが著しく発展してきたことをきっかけに現職となりました。 横原大和(以下、横原):株式会社khakiの横原です。khakiはCMやMVの制作を中心としたCGプロダクションで、最近では映画作品やVRなどの分野にも携わっています。私自身はジェネラリストとして、モデリングやアニメーション、ディレクションなどに従事しています。 CGW:まずは、「Stable Diffusion」の概要について教えてください。 ジェリー:「Stable Diffusion」は、アート、デザイン、エ
機械学習プラットフォームのTensorFlowで実行される、Pythonで記述されたディープラーニング用APIが「Keras」です。このKerasを拡張して画像分類、物体検出、画像分割、画像データ補強などを行うためのモジュール式ビルディングブロック「KerasCV」を使うと、画像生成AIのStable Diffusionが約30%高速になるという報告が、KerasCVの開発者による研究チームからあがっています。 High-performance image generation using Stable Diffusion in KerasCV https://keras.io/guides/keras_cv/generate_images_with_stable_diffusion/ Stable Diffusionは2022年8月に一般公開されたオープンソースの画像生成AIで、入力した
Stable Diffusion web UI (AUTOMATIC1111) の使い方をまとめました。 ・Windows 11 ・Stable Diffusion WebUI Docker v1.0.2 ・AUTOMATIC1111 1. AUTOMATIC1111「AUTIMATIC1111」は、「Stable Diffusion」のフォークの1つで、最も豊富な機能が提供されているフォークです。 主な特徴は、次のとおりです。 ・Text-to-Image : 多くのサンプラーとネガティブプロンプトが利用可能。 ・Image-to-Image : マスキング、トリミング、インペインティング、アウトペインティング、バリエーションが利用可能 ・GFPGAN、RealESRGAN、LDSR、CodeFormer ・ループバック、プロンプト重み付け、プロンプトマトリックス、X/Yプロット ・生成
画像生成AI「Stable Diffusion」はモデルを変更することで、様々なイメージを生成することができます。 また、このAIは常に新しい機能やモデルがユーザーによって開発されており、モデルを変更することでさらに質の高い画像を生成することができます。 BRA v6で生成された画像 2023年7月も、素晴らしいイメージを生成できるStable Diffusion用のモデルが多数発表されました。 この記事では先月までで紹介できていない2023年7月の最新のおすすめStable Diffusionモデルを6つ紹介します。 https://photoshopbook.com/2023/06/11/stable-diffusion-models-202306/ 実写人物のためのStable Diffusionのおすすめモデル BRA v6 BRA (Beautiful Realistic Asi
この記事で書くこと stable-diffusion-webuiを100時間くらい触った上で、手っ取り早くクオリティを上げるために知っといたほうがいいこと テクニック、記事リンク、関連サービスを書きます 筆者はWebエンジニアだけどAI素人です 言葉もあやふやなので修正歓迎です この記事で書かないこと 導入方法 エンジニアはもちろんgitで導入したほうが更新が楽でよいです 先に知っておきたい知識 モデル 絵や画風を学習させた大元の心臓部。これを変えると同じプロンプトでも全く別の絵になります モデルは checkpoint と言われていて 拡張子.ckpt または .safetensor で配布されてます ckptは任意のコードを実行できる問題があるので、できればsafetensor形式のモデルを入手しましょう vae 出力される絵の塗り、明るさに影響する 好きなモデルとvaeを組み合わせる
今回の目的は、プロンプトを考えずに適当な画像を入力するだけで、それっぽい画像を生成するモデルを作ることです。そのために、画像分類モデルの出力をStable diffusionのUNetが理解できるように学習し、画像自体をプロンプトとして扱えるようにします。 ※自分の記事があまりにも面白すぎて冗長になってしまったので、太字部分だけ読んでもだいたい分かるようにしています。 ばっくぐらうんど哲学的問題:AIを使いこなせず無駄な労力を割く人間と、AIに頼って自分では何もできなくなった人間、どちらが猿に近いのだろうか? WD14-Taggerの登場により、danbooru由来のデータであろうがなかろうが、danbooruタグに基づく学習ができるようになりました。そのため、多くのアニメスタイルの画像が、danbooruタグを列挙したプロンプトを入力して作成されています。しかしWD14-Taggerの出
Requirement: This project require a Nvidia Card that can run CUDA. With a card with 4 vram, it should generate 256X512 images. 🎉 Attention! This version is highly outdated: 🎉 ✨Download the last update from Patreon.✨ 👉 https://www.patreon.com/DAINAPP 👈 In the Patreon version you can run: 512X512 with 4 VramUse upscaler Faster render with more schedulersUse img2imgUse inpaintingLoad other models
masterpiece, best quality, halloween 下記の記事がGoogle砲のおかげで多くのアクセスを頂いていますので、お礼にAI絵師が描いた絵の作例を生成に使ったプロンプト(絵の下に書いてある適当な呪文)とともに、多数掲載しておきます。 アニメキャラクター生成し放題 Waifu Diffusion のモデルを #StableDiffusion web UI (AUTOMATIC1111) に入れて、AIを2次元絵師に txt2imgで描いたものを無修正でそのままExtrasで拡大しています。img2imgやInpaintで修正していけばもっと良くなると思います。こんなレベルの絵を1枚数秒で描いてしまうのはすごいですね。色々使えそう。 (AIの実力を知るため、Stable Diffusion Web UIのNovelAIエミュレーションで生成したものですが、問題もあ
Waifu DiffusionやNovelAIのプロンプトで使える単語の中から、キャラの位置・向き、ポーズを調整できるタグをまとめました。 画像はWaifu Diffusion1.3で出力しています。WF1.3で出力を確認できなかったタグはNovel AIの写真を掲載しています。 目次 カメラからキャラの位置 強調部位 キャラの目線や視点 キャラのポーズ 体全体 顔 持つ 手・腕 指 足 座る 寝る 二人のポーズ 画像生成呪文のトップページ カメラからキャラの位置 from above:上からキャラを見下ろす。遠距離からになる可能性も高い。from below:下からキャラを見上げる。遠距離からになる可能性も高い。dutch angle:ゲームCGなどのようにキャラを斜めに見せて沢山の見せ幅を作る。遠距離からになる可能性も高い。from side:キャラクターを側面から見る。profile
Stable DiffusionのモデルであるWaife Diffusion、NovelAIのプロンプトで通用する呪文の単語を体系別にまとめています。実験はWaife Diffusionでしていますが、おそらくはNovelAIでも通用すると思います。ちょっとずつまとめていきます。 目次 画面全体にかかるエフェクト キャラの位置・ポーズ・エフェクト等 悪品質 身体全体にかけるエフェクト等 身体的特徴 肌色 髪 表情 顔の装飾品 眉毛 目 耳 口 肩 手 胸 お腹 足 衣装・装飾品 帽子・頭装飾品 顔装飾品 首装飾品 肩装飾品 手袋・腕装飾品 衣装の着こなし方 全体衣装 上半身衣装 下半身衣装 靴・足首周り衣装 装飾品 持ち物 衣装柄 背景や画面全体 背景 人数 画面全体にかかるエフェクト 2022年10月6日画風・エフェクト関係の呪文の一覧【Waifu Diffusion・NovelAI】
Run Stable Diffusion on Apple Silicon with Core ML [Blog Post] [BibTeX] This repository comprises: python_coreml_stable_diffusion, a Python package for converting PyTorch models to Core ML format and performing image generation with Hugging Face diffusers in Python StableDiffusion, a Swift package that developers can add to their Xcode projects as a dependency to deploy image generation capabiliti
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く