AIは漢字が苦手だ。 画像生成AIに漢字が書いてある紙、などと指示をするとそれっぽいけど存在しない漢字を出してくる。 その漢字が好きなので、僕らがAIが書く漢字を書いてみよう。 (AIが漢字が苦手というのは2024年6月現在の話です)
画像生成AI関連の著名な開発者、lllyasviel(イリヤスフィール)氏が5月7日、生成AI画像の照明を自在に操作できるツール「IC-Light(Imposing Consistent Light)」を公開した。 2種類のモデルを公開 IC-Lightは画像の照明を操作するプロジェクト。前景画像(人物やオブジェクトなど)を入力し、プロンプトにテキストや背景画像を指定するだけで、まるで別の環境で撮影したかのような画像を得ることができるという。 現在、「テキスト条件付きリライティングモデル(text-conditioned relighting model)」と「背景条件付きモデル(background-conditioned model)」の2種類がGitHubで公開されており自由に試すことができる。 なお、作者のlllyasviel氏は「Stable Diffusion」のWebUIであ
こうした動きと並行して、OpenAIは一部の映像クリエイターにSoraを試用してもらい、その作品を積極的に公開しています。中でも僕が注目したのは、「パンクロック・ピクサー」の異名を持つshy kidsというカナダの映像プロダクションが制作した「Air Head」です。これは頭が黄色い風船で出来ている主人公が、自転車に乗ったり、サボテンだらけの通路を歩いたり、風に飛ばされた頭を胴体が追いかけるといった内容の、アイデアに満ちていてAI生成動画の可能性を示す1分21秒の小品でした。 ところが、4月半ばにfxguideというオンラインメディアがshy kidsを取材して、Soraの実際の使用感を語った”Actually Using SORA”という記事を掲載したのです。 それによると、Soraも他の動画生成AIと同じく、どのような映像が生成されるかはスロットマシン(昨今の日本風にいえば、ガチャ)の
API経由ながらStable Diffusion 3が利用可能に!今年、2024年2月24日に次世代Stable Diffusion、Stable Diffusion 3が発表された。いろいろな特徴があるのだが、画像品質の向上はもちろんのこと、Stable Diffusion (XL) が苦手だった文字 (但し日本語などは除く) にも対応し、早く使いたかったものの、まだ一般が試せる状態ではなかった。 ところがつい先日の4月17日、Stability AI Developer PlatformのAPI経由で利用可能となったので、使ってみたのが今回の内容となる。 APIを使うにあたって必要なAPI Keyは、Stability AI にアカウントを作ると用意され、自動的に24クレジットが付加される。1枚作って消費するクレジットは以下の通り。 Stable Diffusion 3は1枚6.5クレ
AIが生成した絵に異様なまでの忌避感を示す人がいますが、いざよく似た絵を見せられたとき、人間はその絵が誰(何)によって描かれたのかを判別できない可能性があることがわかりました。さらに、人間はAI製だと思い込んだ人間の絵に根拠もなく悪い評価を与えることも判明しています。 Understanding how personality traits, experiences, and attitudes shape negative bias toward AI-generated artworks | Scientific Reports https://www.nature.com/articles/s41598-024-54294-4 People liked AI art – when they thought it was made by humans https://www.scien
以下のXを見て、早速「Create」を試してみたので、実際に使った所感をまとめます AIがリアルタイムでWebページを作ってくれる神サイト ㅤ 会話だけで、理想のUIを実現することが可能 ㅤ 使い方・活用法をツリーにまとめます! ㅤ ブックマーク保存をおすすめします↓ pic.twitter.com/J1cJkUkyO8 — すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai) March 25, 2024 一言で言うとヤバいです... 詳細は以下のサイトでも解説しています Createとは Create 公式サイト Createは、1行のコードを書かなくても自然言語を使って、高度なAIを搭載したアプリやツールが作成できる生成AI搭載のノーコードツールです。 エンジニアでなくともChatGPT APIやStable Diffusion APIを組み込んだアプリが簡単に作れ
Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 という事で中古ゲーミングノートブックPC+CUDA+Stable-Diffusion Forge+FP8+LCM Turbo+HyperTileで1024x512が7.6秒/枚 Model Memory (MB) = 819.7106971740723 Minimal Inference Memory (MB) = 1024.0 贅沢を言わなければ世代遅れマシンでも十分使える。 CPUと比べて5倍速程度だけど pic.twitter.com/IDI9ICJq8Z 2024-03-24 11:19:13
キャラクターを生成する 最後に紹介するのは「Consistent Character GPT👉🏼 Fast & High Quality⚡️」という長い名前のGPT。 説明文には「Your creative partner for generating characters in different poses, expressions, styles, and scenes. No prompt needed, just start with 'CLICK HERE' and follow the steps.」と書かれている。 「CLICK HERE」と入力して指示に従うだけで「異なるポーズ」「異なる表情」のキャラクターを作成できる、とある。 画像生成AIを触っている人なら納得してもらえると思うが、AIによる画像生成でもっとも難しい事のひとつがキャラの一貫性だ。プロンプトの工夫であ
OpenAIは1月10日、カスタムバージョンのGPTを作成できる「GPTs」機能で作成した多様なGPTを探索できる「GPT Store」の公開を予告通り開始した。今回はストアーのラインアップから画像生成系の「DALL·E」カテゴリーを取り上げてみよう。 「DALL·E」カテゴリー 「DALL·E」カテゴリーには言うまでもなくOpenAIの画像生成AI「DALL·E 3」を便利に使うために作られたカスタムGPTが掲載されている。今回は上位6個のGPTを使ってみることにする。 まずは「DALL·E」カテゴリーのトップ「image generator」というGPTを試してみよう。説明欄には「プロフェッショナルかつフレンドリーなトーンで画像を生成し、洗練させることに特化したGPT(A GPT specialized in generating and refining images with a
画像生成AIのStable Diffusionは「潜在拡散モデル」と呼ばれるAIで、テキストを入力するだけで高精度な画像を生成することが可能です。このStable Diffusionに使われている「VAE」に致命的な欠陥があるという報告が、オンライン掲示板サイトのRedditに投稿されています。 The VAE used for Stable Diffusion 1.x/2.x and other models (KL-F8) has a critical flaw, probably due to bad training, that is holding back all models that use it (almost certainly including DALL-E 3). : StableDiffusion https://old.reddit.com/r/StableD
絵がド下手でもAIが上手に描いてくれる神サービス『AIキャンバス』スタート! リアルタイム画像生成Akuma.ai リアルタイム画像生成で知られている『Akuma.ai』が、あまりにも未来的かつ革命的なサービスをスタートして注目を集めている。それは『AIキャンバス』で、たとえ絵が下手な人が絵を描いても、AIが上手に描いてくれる(描き直してくれる!?)のである! 良い感じに仕上がった! これまさに革命的なサービス『AIキャンバス』 文字である程度の状況の説明を記入しつつ、画面上のキャンバスに絵を描くと、それを上手に描いてくれるのである。筆者も実際に試してみたが、まだまだ慣れていないものの、なんとなく良い感じに仕上がった! これまさに革命的なサービスである。 【正式リリース】リアルタイムで画像生成ができる「AIキャンバス」。本日より誰でも無料で使えます pic.twitter.com/JyEG
OpenAIの画像生成AI「DALL·E 3」を用いて、自分の写真をもとに、アバターとして使えるプロフィール用画像を生成してくれる「Free Profile Picture Generator」が登場しました。 Free Profile Picture Generator using DALL-E 3 https://www.headshotpro.com/tools/free-pfp-generator サイトにアクセスすると、どんな画像が作れるのかというサンプルがずらっと並んでいます。 画像を作るには「Upload one photo」のボタンをクリック。 ダイアログが開くのでベースとして使いたい画像を選び、画像のスタイルを「Flat illustration」「3D rendered」「Comic book」「Anime」「Chibi Cartoon」の5つから選びます。今回は「Fl
「Midjourney」は、テキストから画像を生成する強力な人工知能(AI)で、ありとあらゆる画像を生成できると言ってもいいほどだ。しかし、これまではコミュニケーションサービス「Discord」経由でしか利用できず、特に使いやすいプラットフォームとは言えなかった。そのMidjourneyが今回、より簡単に素早く画像を生成できるという専用のウェブサイトを開設した。 Midjourneyの最高経営責任者(CEO)David Holz氏によると、このウェブサイトは現在アルファ版で、まずはDiscord上のMidjourneyで作成した画像が1万枚を超えるユーザーだけが利用できるという。Midjourneyを使ったことがある場合、生成した画像の枚数を確認するには、Midjourney Botが含まれるDiscordのチャンネルで「/info」と入力すればいい。 Midjourneyがサービスを開始
ポイント SDXL Turboは、新しい蒸留技術によって最先端の性能を達成し、これまでにない品質のシングルステップ画像生成を可能にし、必要なステップ数を50から1に削減 非商用研究ライセンスでのリリース(Hugging Faceのモデルウェイトとコードをダウンロードしてください。) Clipdrop にてベータ版を公開中 新しいテキスト画像合成モードである SDXL Turbo をご紹介します。SDXL Turbo は、敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)と呼ばれる新しい蒸留技術に基づいています。この技術により、SDXL Turbo は1つのステップで画像出力を合成し、高いサンプリング忠実度を維持しながらリアルタイムでテキストから画像への出力を生成することができます。技術的な詳細に興味のある研究者や愛好家のために、研究論文はこちらで
今回はそれだけでは面白く無いので、元画像を絵柄そのまま高精細なフルHDにアップスケールしたい、もしくはそのまま使って絵を変えたい、構図やポーズをある程度固定したい、Photoshopのジェネレーティブ塗りつぶし的な機能は?…と言った、もう少しStable Diffusionっぽい使い方を順に説明する。 image-2-image / UpscalePromptから画像を得る方法を一般的にText-2-Imageと呼んでいる(txt2imgやt2iとも)。文字通りテキストから画像を…と言う意味だ。 Stable Diffusionでは、加えて画像から画像を得る方法があり、これをImage-2-Imageと呼んでいる(img2imgやi2iとも)。言葉よりも画像の方がより多くの情報を持っているので、それを使おうと言う意図だ。 これまで生成した画像の解像度は、832✕1,216や1,024✕1,
生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧もっと簡単に高画質の絵を出したい!前回は画像生成AIなStable Diffusionを動かすにあたって、一番ポピュラーなインターフェースである AUTOMATIC1111のインストール方法と簡単な使い方をご紹介した。 AUTOMATIC1111はこれ一本で何でも出来る優れものなのだが、その分、設定項目が多く、ぱっと見、何が何だか分からない人も多いのではないだろうか。筆者も当初はそうだった。 AUTOMATIC1111の起動直後。正直これでは何から触って良いのかビギナーには分からない加えてStable Diffusion 1.5 (SD 1.5)標準Modelだと、画像生成を指示する呪文(Prompt)でいくら頑張っても大したものが出ないため、実用的に使うには別途Modelダウンロードする必要があるなど、初心者にとっては面
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く