「動くAIグラビア・AI美女を生成したい」 「AnimateDiffでBRAV6モデルを利用したい」 このような場合には、この記事の内容が参考になります。 この記事では、BRAV6を用いた美女のアニメーション生成について解説しています。 本記事の内容 AnimateDiffへのモデル追加(BRAV6)AnimateDiffにおけるconfigファイル作成BRAV6を用いたGIFアニメの生成 それでは、上記に沿って解説していきます。
はじめに こんにちは。 一昨日、土日を1日潰してLatent Cosistency Model(LCM)の推論高速化に取り組んでみたところ、そこそこ上手くいき、512×512pxの画像をimage-to-image(img2img)するタスクにおいてRTX3090で26fps、A100で33fpsの推論速度が出るようになりました。 【追記】RTX4090だと45fps出たそうなので、記事のタイトルをわずかに更新しました。記事作成当時はA100で検証していたので、以下ご了承ください。 画像1枚につき0.03秒で処理できていることになるので、ほぼリアルタイムで変換できていると言ってもいいのではないでしょうか。 プログレスバーが1%進むごとに1枚の画像のimg2imgが完了しています。気持ちいいですね。 そこで、この記事では、当高速化に取り組んだとき経験的に(理論的にではない)得られた、LCM推
画像生成AIのStable Diffusionなどのトレーニングには、約58億5000万もの画像とテキストの組み合わせからなるデータセット「LAION-5B」が用いられています。新たに人権NGOのヒューマン・ライツ・ウォッチ(HRW)が、LAION-5Bにはブラジルの子どもたちの写真が同意なしで使われており、多くの子どもたちは身元まで追跡可能であると報告しました。 Brazil: Children’s Personal Photos Misused to Power AI Tools | Human Rights Watch https://www.hrw.org/news/2024/06/10/brazil-childrens-personal-photos-misused-power-ai-tools AI trained on photos from kids’ entire chi
はじめにコピー機学習法は、LoRAを教師画像と同様の画像しか出力されないレベルまで過学習し(コピー機と呼ばれる理由です)、そこから目的のLoRAを取り出す手法です。詳細は以下の月須和・那々氏の記事をご覧ください。 今回、SDXLでコピー機学習法を試してみました。品質的にはいまひとつですが、一応成功はしましたので、設定等を共有します。 学習にはsd-scriptsを利用しています。 教師データとりにく氏の画像を利用させていただきます。 SDXLにおけるコピー機学習法考察(その1) ①まず生成AIから1枚の画像を出力(base_eyes)。手動で目をつぶった画像(closed_eyes)に加工(画像1枚目と2枚目) ②画像3枚目のレシピでまずbase_eyesを学習、CounterfeitXL-V1.0とマージする ③②のモデルをベースに4枚目でclosed_eyesを学習 pic.twitt
こんなんじゃ中国に勝てませんよ! いくつかの課題をクリアすると、「実行できるタスクはありません」状態になった。その下には、私の提出した内容はチェックを受け、48時間以内にフィードバックが送られてくると書いてある。 ノートパソコンを閉じる前に、参加可能になったRemotasksのドイツ語要員のチャットを覗いてみた。そこには質問と苦情が入り混じっていた。 私はコワーキングスペースの角のカフェに行き、テラス席に座った。ツイッターを見ると、私の上司に当たる人物が米下院の軍事委員会で発言している様子が中継されているというので、それを開いてみた。 いささかオーバーサイズのスーツを着たその人物、スケールAI創業者のアレクサンダー・ワンは、最初の挨拶をするところだった。 「新しいタイプの戦争がおこなわれる時代の幕開けに、ここでこうしてお話しできることを光栄に思います。これからの時代、AIが支配的になるなか
「Midjourney」は、テキストから画像を生成する強力な人工知能(AI)で、ありとあらゆる画像を生成できると言ってもいいほどだ。しかし、これまではコミュニケーションサービス「Discord」経由でしか利用できず、特に使いやすいプラットフォームとは言えなかった。そのMidjourneyが今回、より簡単に素早く画像を生成できるという専用のウェブサイトを開設した。 Midjourneyの最高経営責任者(CEO)David Holz氏によると、このウェブサイトは現在アルファ版で、まずはDiscord上のMidjourneyで作成した画像が1万枚を超えるユーザーだけが利用できるという。Midjourneyを使ったことがある場合、生成した画像の枚数を確認するには、Midjourney Botが含まれるDiscordのチャンネルで「/info」と入力すればいい。 Midjourneyがサービスを開始
Stable Diffusion の web UI でありバックエンドでもある ComfyUI について、主にアーティスト向けに、内部動作や背景にある理論も含めて感覚的に捉えられるように解説していきます。 (充実しつつある公式 README や公式サンプルに書いてあることは、多分このサイトでは説明しません) 重要な外部リンク ComfyUI 公式リポジトリ ComfyUI 公式サンプル ComfyUI 公式チュートリアル (未完らしい) 有志によるマニュアル (ほぼ準公式) 最近の主な更新 公式に取り込まれた: ConditioningConcat 新ノード: ConditioningZeroOut SDXL 関連のノード追加: CLIPTextEncodeSDXL、CLIPTextEncodeSDXLRefiner モデルの保存が出来るようになった: CheckpointSave SDX
完全に自分目線の歴史です。時系列は適当なこともあるよ。 2022/8 モデルが公開されましたが、学習を始めた人は一部だけでしょう。 Stable Diffusionリリース 22日 これまでの画像生成AIと違いモデルがオープンになったことで、誰でも自由に学習できるようになりました。StabilityAIが公開したコードには学習コードも含まれていたので、技術力さえあればこの時点で学習できたのかな。コードやモデルファイルはStabilityAIによるコードと、HuggingfaceのDiffusersライブラリの二つに分かれており、今でも混乱の原因になっている気がします。 Textual Inversion論文自体はStable Diffusionの公開直前くらいに出たもののようですね。学習方法として最初に流行った方法で、27日には日本語記事が出てますね。はやい。 この頃はStabilityA
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第39回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 実写動画をアニメ映像に変換など、動画をプロンプトで高品質に編集できるAIモデル「FRESCO」 既存モデル同士を掛け合わせて新しい高品質LLMを自律的に作り出す手法、AIベンチャー「Sakana AI」が開発 高品質なステレオ音楽を生成できるボコーダー「MusicHiFi」をAdobeなどが開発 900FPS以上で写真のような高品質な大規模3Dシーンをリアルタイム生成する「RadSplat」をGoogleなどが開発 Soraの再現を目指すオープンソースText-to-Videoモデル「O
画像生成AI「Stable Diffusion」はモデルを変更することで、様々なイメージを生成することができます。 また、このAIは常に新しい機能やモデルがユーザーによって開発されており、モデルを変更することでさらに質の高い画像を生成することができます。 BRA v6で生成された画像 2023年7月も、素晴らしいイメージを生成できるStable Diffusion用のモデルが多数発表されました。 この記事では先月までで紹介できていない2023年7月の最新のおすすめStable Diffusionモデルを6つ紹介します。 https://photoshopbook.com/2023/06/11/stable-diffusion-models-202306/ 実写人物のためのStable Diffusionのおすすめモデル BRA v6 BRA (Beautiful Realistic Asi
2023年10月17日に配信された「Game Ready ドライバー」のアップデートによりいくつかのゲームの起動時パフォーマンスが向上し、さらに画像生成AIのStable Diffusionが最大2倍速くなることが発表されました。 New Game Ready Driver Released: DLSS 3 For NARAKA: BLADEPOINT and Warhammer: Vermintide 2, Plus RTX Video Super Resolution Enhancements & Stable Diffusion Is Now Up To 2X Faster | GeForce News | NVIDIA https://www.nvidia.com/en-us/geforce/news/game-ready-driver-dlss-3-naraka-verminti
キャラクターを生成する 最後に紹介するのは「Consistent Character GPT👉🏼 Fast & High Quality⚡️」という長い名前のGPT。 説明文には「Your creative partner for generating characters in different poses, expressions, styles, and scenes. No prompt needed, just start with 'CLICK HERE' and follow the steps.」と書かれている。 「CLICK HERE」と入力して指示に従うだけで「異なるポーズ」「異なる表情」のキャラクターを作成できる、とある。 画像生成AIを触っている人なら納得してもらえると思うが、AIによる画像生成でもっとも難しい事のひとつがキャラの一貫性だ。プロンプトの工夫であ
クラウドストレージサービスを展開するBackBlazeは、自社で管理するHDDやSDDの故障状況をまとめたレポートを定期的に公開しています。2023年9月26日には、SSDの故障状況をモデル別にまとめたレポートの2023年中間報告版が公開されました。 The SSD Edition: 2023 Drive Stats Mid-Year Review https://www.backblaze.com/blog/ssd-edition-2023-mid-year-drive-stats-review/ BackBlazeは2023年6月30日時点で3144台のSSDをクラウドストレージサーバーのブートドライブとして運用しています。各SSDは「システムの起動」「ログファイルや一時ファイルの保存」などに使われており、サーバーの活動状況に応じて読み取り、書き込み、削除が毎日実行されています。 20
シカゴ大学の研究チームがAIによる画像学習を防止するツール「Nightshade」を開発しています。Nightshadeを用いて画像を処理すると画像の見た目を大きく変えずにAIによる学習を阻害することが可能とのことです。 [2310.13828] Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models https://arxiv.org/abs/2310.13828 Meet Nightshade, the new tool allowing artists to 'poison' AI models | VentureBeat https://venturebeat.com/ai/meet-nightshade-the-new-tool-allowing-artists-to-poison-ai-model
Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。 手法の分類 画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える:Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える:Reference only, FABRIC Time embeddingに与える:UnCLIP, Revision その他の場所に与える:ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する:HyperDreambooth あれ・・?もしかしてこの時点でたいていの人は脱落ですか。この辺の
Stability MatrixでPCの状態をキープ!Stable Diffusionを手軽に導入しよう♪ 最近、GPUを搭載したPCを使用する機会に恵まれ、自分も画像生成系AIのStable Diffusionを使用することにしてみました。そこまでの興味というわけでもないのですが、自分が最も不得意とするCGという分野がお手軽に楽しめるということと、ガチャのような体験をしつつ出来上がる作品を待つというのがわりと面白いものだなと思っていました。 といっても、あまりPCの環境をぐちゃぐちゃにしたくないなあという思いもあり、これまではDocker環境を使用してStable Diffusion(厳密に言えばStableDiffusion Web UI Automatic1111)を使用していました。確かにDockerは普段使っていますし、環境もコンテナを消せば何事もないというのは魅力的なのですが、
人工知能(AI)技術と著作権など、生成AIに対して社会が抱える懸念に対処する方向性が見えてきた。文化庁の小委員会は著作権の考え方を、内閣府の知的財産戦略推進事務局は知財全般の骨子案をそれぞれ示した。流動的な面があるものの大枠は示された。著作物を学習し放題の“機械学習パラダイス”とされた法解釈は、クリエーター寄りに修正される。データの対価や作風などの判断は業界や司法に委ねられ、業界のガバナンス(統治)に国が管理できるかが課題になる。(小寺貴之) 著作権法では著作物を他人が享受しない場合は著作権が制限される規定がある。この制限規定のために著作物は学習し放題とされ、AI開発者にとって“機械学習パラダイス”と言われてきた。海外で画像生成AIにクリエーターらが反発し、日本でもクリエーターや事業者などから懸念が表明されていた。 文化庁の指針では非享受目的は引き続き権利制限が適用されるものの、享受目的が
Stable Diffusion WebUI Forge is a platform on top of Stable Diffusion WebUI (based on Gradio) to make development easier, optimize resource management, and speed up inference. The name "Forge" is inspired from "Minecraft Forge". This project is aimed at becoming SD WebUI's Forge. Compared to original WebUI (for SDXL inference at 1024px), you can expect the below speed-ups: If you use common GPU li
タイトル通りの内容です 整備はしたいのですがまだまだ自分向けという感じのコードです WebUI1.6で動作を確認しています 今回は、hook.pyとcontrolnet.pyを修正しています。 また、リポジトリのTOPにあるCN_AD.jsonをトップディレクトリ(webui-user.batのあるところ) に置きます。 { "_is_CN_AD_on": 1, "input_images_pass": "imput_images", "input_images_number": 16 }_is_CN_AD_on:このモードを使用するかどうか input_images_pass:連番画像を入れるパスの名前 input_images_number:画像の枚数(フレーム数と同じ枚数にしか対応していません) 設定例設定は普通にUI上で行います。まずは同じ設定で動くか試してください。 主な注意点は
Beautiful Realistic Asians最新『BRAV6』が遂に登場。実写系モデルのおすすめ 今回は、大人気のBRAシリーズから最新バージョンであるBRAV6がリリースされたので、そちらをご紹介します。 V5の段階でもかなりリアルだったんですが、V6ではまた違った顔の系統や、違う表現が生成できるようになった印象があります。 V5と同じプロンプトで、どのような違いがあるかを比較していくので、ぜひ参考にしてみて下さい。 Amazonには沢山AI写真集が販売されていますが、Brav6の生成になれると、中でもクオリティが高い写真集を生成できると思います(※2023/7/10時点) また、AIにて写真集を生成する行為は現状グレーかと思いますので、自己責任にてお願い致します。 BRAV6のイントール方法まずは、Brav6のデータをインストールします。 hugging faceのリンクをクリ
Last update 2-18-2024 ※モデルのディレクトリを変更して統一する等もしているので、よければ参考にしてください。 ▼ 0. 本記事について0-1. 概要 現在使用しているAUTOMATIC1111氏のStable Diffusion web UI(以下AUTOMATIC1111版)と、Stable Diffusion WebUI Forge(以下Forge版)設定に関する個人的なメモです(Extensionの話は出てきません)。 別で、Stable Diffusion WebUI Forgeの導入記事もあります(難易度はAUTOMATIC1111 web UIと同程度)。 ▼ 1. ディレクトリ構成とバッチファイル バッチファイルのファイル名はお好みで変更してください。 1-1. ユーザーディレクトリ コマンド プロンプトを開くとユーザーディレクトリから始まるため、ここ
動画だけじゃない。効果音も作れるAIが近日登場2024.02.25 08:006,481 岡本玄介 何から何までAIで完成しちゃう。 文章入力だけで超リアルな動画を生成できる、OpenAIの新AIツール「Sora」。現実世界で撮影したようなクオリティーなので、勘違いする人もたくさん出てきそう…というレベルです。 「Sora」は映像を作るツールとしては凄まじい性能ですが、そこにはまだ音がありません。そこで開発されているのが、「だったら効果音もAIで作っちゃえばイイじゃん?」というもの。 「AI Sound Effects」誕生ElevenLabsの「AI Sound Effects」により、OpenAIが発表した動画にAI生成の音が追加されました。 Video: ElevenLabs/YouTube足音やロボットの機械音、街の喧騒や雪がワサワサする音、タイピング音もこの通り。ナレーションや台
Technology部の町田です。 生成AIが台頭しはじめ早くも1年以上が経ちましたが、特に進歩がすさまじい技術の1つが画像生成AIです。画像生成AIを使えば、数秒で画像を生成できるようになりました。 ただし、自分がイメージしたような画像を生成するには、プロンプトがとても重要です。 そこで今回は、思い通りの画像を生成するためのプロンプト作成のコツをまとめました。 代表的な画像生成AIツールであるStable DiffusionとMidjourneyの使い方とあわせ、プロンプトの作成ポイントをお伝えします。 生成AIを業務で活用するには… 生成AIをビジネスや業務で活用するためには、導入時に直面する課題・リスクについても考慮する必要があります。生成AIの活用をご検討中なら、こちらのページで紹介している生成AIコンサルティング・導入支援を得意とする会社へご相談してみてください! 画像生成AIと
みんな大好き Stable Diffusion の新しいバージョン! SDXL が近々公開されます!(現地時間7/18日予定) 何が変わるの?って聞かれてもなにもわからないけど、とりあえず色々スゴイらしい! ただし!今まで使っていた LoRA とかモデルとかは使えません! なのでおそらくみなさんが普通に使うようになるのは当分先です! (あるいは使うことない可能性も…?) この記事では、そんなSDXLのプレリリース版 SDXL 0.9 で何ができるのかを紹介していきたいと思います! たぶん正式リリースされてもあんま変わらないだろ! 注意:SDXL 0.9 はライセンスにより商用利用とかが禁止されています SDXL を動かす!(試す気ない人はスルーで)まず動かす環境を作らないと話になりません! 方法はいろいろありますが、以下の記事を参考にSD.Next (vladmandic版webui)
近年ではAIの発展により、人間のアーティストの歌声などを学習して新たな楽曲を作り出す技術が登場しています。パフォーマンス目的でのAI音声の不正使用を防止し、AIによる無断学習からアーティストを保護するための「2024年肖像・画像セキュリティ保護法」、通称「ELVIS法」がアメリカ・テネシー州で可決され、ビル・リー州知事が署名しました。 PHOTOS: Gov. Lee Signs ELVIS Act Into Law https://www.tn.gov/governor/news/2024/3/21/photos--gov--lee-signs-elvis-act-into-law.html Tennessee becomes first US state with law protecting musicians from AI | Reuters https://www.reuter
入力された文章(プロンプト)から画像を生成するAIの機能を「Text to Image」と呼びます。このプロンプトを、プレーンテキストではなくリッチテキストにして、フォントの大きさや色、スタイル、脚注を生成する画像に反映する技術「Expressive Text-to-Image Generation」を、メリーランド大学カレッジパークの研究者らが生み出しました。 Expressive Text-to-Image Generation with Rich Text https://rich-text-to-image.github.io/ [2304.06720] Expressive Text-to-Image Generation with Rich Text https://arxiv.org/abs/2304.06720 GitHub - songweige/rich-text-to
関連キーワード Linux | OS | 運用管理 | セキュリティ OS「Linux」は、複数のセキュリティモジュールを組み込んでいる。アクセス制御を実現するための代表的なセキュリティモジュールが「SELinux」(Security-Enhanced Linux)「AppArmor」だ。「Red Hat Enterprise Linux」(RHEL)およびその派生ディストリビューション(配布パッケージ)はSELinuxを、「Debian」およびその派生ディストリビューションはAppArmorを主に標準セキュリティモジュールとして採用している。両者には、それぞれどのような利点と欠点があるのか。 SELinuxの利点と欠点 併せて読みたいお薦め記事 連載:Linuxのセキュリティを比較 前編:Linuxを守る「SELinux」と「AppArmor」は何が違うのか? Linuxの運用管理 いま
ByteDanceが開発した高速画像生成モデル「SDXL-Lightning」のデモアプリがAIエンジニアのアレックス・ボルコフ氏によって作成されました。デモアプリには「fal.ai」がホストする画像生成AI高速処理APIが使われているほか、「Groq」が提供する大規模言語モデル「Mixtral」の高速実行APIを組み合わせることで簡単な文章を入力するだけで画像生成AI向けに最適化したプロンプトを高速生成して瞬時に高品質な画像を生成できるようになっています。 ThursdAI Feb 22nd - Groq near instant LLM calls, SDXL Lightning near instant SDXL, Google gives us GEMMA open weights and refuses to draw white people, Stability announ
Fooocus is an image generating software (based on Gradio). Fooocus is a rethinking of Stable Diffusion and Midjourney’s designs: Learned from Stable Diffusion, the software is offline, open source, and free. Learned from Midjourney, the manual tweaking is not needed, and users only need to focus on the prompts and images. Fooocus has included and automated lots of inner optimizations and quality i
原画と原画の間にあたる画像を複数枚入れることで、自然な連続性のある動きを作る。アニメの基本となる「中割」作業を画像生成AIが実現する可能性が出てきました。鍵になっているのは「AnimateDiff」という技術。8月に入って、様々なユーザーのアップデートによって機能拡張が進められています。それは完全な画像生成AIで作られるアニメの可能性を垣間見せるほどのものです。 16コマ/2秒の短い動画が生成できる AnimateDiffは7月10日に発表された、上海AIラボ、香港中文大学、スタンフォード大学の共同研究による技術。画像生成AI「Stable Diffusion」の仕組みとデータセットを利用しつつ、数百万本の動画を学習させた「モーションモジュール」と呼ばれるデータセットを別途に参照させることで、連続するキャラクターの動きを生成可能にするというのが基本原理です。生成できる時間は、16コマ/2秒
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く