2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第8回目は、マイクロソフトによるText-to-Speech技術、3Dシーンやアバター生成技術など、5つの論文をまとめました。 生成AI論文ピックアップ任意の人の声でテキストを読ませるText-to-Speechモデル「SpeechX」 米Microsoftの研究者らが開発 映像から3Dシーンを生成できるVideo-to-3Dモデル「Neuralangelo」のコードが公開 安定したビデオ合成ができる動画処理技術「CoDeF」 中国の研究者らが開発 写真1枚から着衣3D人体モデルを高精度に生成する技術「TeCH」 ユーザー特化のAIチャットボットが作れるアプローチ G
LoRAとは前回はモデルの1つであるCheckpointについていろいろお話した。今回はStable Diffusionが扱えるモデルの中で次によく使われるLoRAについてがお題となる。 連載の第一回では、自前で撮影した実在モデルの写真を学習させた専用のCheckpointを作り、そちらで生成した作例をいくつか掲載した。 これはCheckpoint自体に学習結果を保存する形式で一般的にはファインチューニングと呼ばれている。このキーワード自体は、LLM(大規模言語モデル)でもよく耳にするので、覚えのある人もいらっしゃるのではないだろうか。
Twitter公式アプリのiOS版が7月31日に10.0にバージョンアップされ、「Twitter」から「X」に名称変更となりました。 バージョンアップ内容は「機能強化と不具合の修正」となっていますが、今回はアプリ名称と、投稿の呼び方が変わるという、大きな変更が行われています。 iOS版アプリのアイコンは前回のバージョンアップで青い鳥から「X」ロゴに変わったものの、App Storeとホーム画面上の名前はTwitterのままでした。 執筆時点でのAndroid版アプリのバージョンは10.0.0-release.0となっており、アイコンはXロゴですが、名称はTwitterのままです。 また、iOS版アプリでは、投稿を意味するツイート(Tweet)が、ポスト(Post)と変更されています。 ▲上がiOS版、下がデスクトップ(Web)版 リツイートは「リポスト」(Repost)と表現が変わっていま
現役グラビアカメラマンでありソフトウェアエンジニアでもある西川和久氏が、画像生成AIを使ったリアルなAIグラビア作成技術を解説する連載の第三回。 今回はポーズ / 構図をテーマに、プロカメラマンとしての撮影スタイルとAI生成の共通点、現時点のAIでは難しい手指の表現を改善する技術についても説明します。(編集部) 実際の撮影と「呪文」の関係は似ている?グラビアでもポートレートでも、撮影する時は「立って」「座って」「前向き」「後ろ向き」……といったようにカメラマン側から指示を出す。 この大雑把な指示はどのカメラマンでもすることだが、顔の向きだったり腕の形だったり足の位置といった細かいことは、「指示する」カメラマンと「指示しない」カメラマンとで分かれる。これは撮影スタイルの話なので、どちらが良い悪いではない。 筆者の場合は割と大雑把で、細かい指示はせず、後の事はそのモデルに任せる=個性だと思って
運営会社をTwitter社からX社に変更したように、現在の青い鳥のロゴも「X」に変更し、ウェブサイトのアドレスも「X.com」を利用します。 「まもなくTwitterブランドに、そしていずれは全ての鳥たちにも別れを告げることになる」 「良いXロゴが今晩中に投稿されたら、明日には全世界で採用するつもりだ」 「こんな風に、でもXで」 マスク氏は以前から、SNSやメッセージだけでなく決済や個人間の送金など多数の機能を備えた「everything app」である「X」の提供を目指していました。 ツイッターを手に入れたのも、手早く既存のユーザー数を買って自分の「何でもアプリ」Xの実現を早めることが目的だと、買収成立前から公言しています。 everything appの例は、中国の微信(WeChat)やLINEなど。 マスク氏の狙いがどこまで実現するかは分かりませんが、目指すのは動画も通話も買い物もX
使用したNegative Promptは、「1.無し」、「2.ほぼ最小限」、「3.筆者標準」、「4.embeddingsを使う」の4つパターン。 4番目だけ他と違い別途ファイルが必要となり、ダウンロードしたファイルを[Stable Diffusionのホームディレクトリ]/embeddingsへコピーする。Negative PromptでEasyNegativeなどをよく見かけるがそれだ。ここではng_deepnegative_v1_75tとbadhandv4が該当する。Promptで書く替わりに、特別に学習したModelで同じ効果を得られるようになっている。 無し (worst quality:2),illustration, 3d, painting, cartoons, sketch, illustration, 3d, sepia, (painting), cartoons, sk
百聞は一見に如かず。これってAI生成グラビア?AI画像生成に興味を持ったのは去年の年末頃だろうか。Twitterを眺めていると「どうやって撮った(作った)んだ?」と言う画像がたまに載っていたので調べると、Stable Diffusion Web UI (AUTOMATIC1111版)だった。 元々グラビアを撮っていたこともあり、あまり撮らなくなってもグラビア好きなのには違いなく、試したくなったのは言うまでもない。 AI生成画像は大きく分けて2種類あり、一つはイラスト系、もう一つはリアル系。筆者が興味を持ったのは後者。どこまで実写に迫れるのかがその興味の対象だ。百聞は一見に如かず。扉の写真はAI生成画像。現時点でこの程度の写りは容易にこなす。 とは言え、実際の撮影もそうなのだが、グラビア写真は数百枚撮ってカメラマンがある程度セレクトし納品したものが、納品先で更に絞られ、出版社などで更に絞り込
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く