gadie_8107のブックマーク - はてなブックマーク

作曲歌唱AI「Suno」、今からでも間に合う制作マニュアル。やり方がちょっと変わったので（CloseBox） | テクノエッジ TechnoEdge

gadie_8107 2023/12/16

AI
音楽

リンク

好きな人の声で好きな文章を読ませるMicrosoftの音声AI「SpeechX」、映像から3Dシーンを生成するNVIDIA開発「Neuralangelo」のコード公開など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第8回目は、マイクロソフトによるText-to-Speech技術、3Dシーンやアバター生成技術など、5つの論文をまとめました。生成AI論文ピックアップ任意の人の声でテキストを読ませるText-to-Speechモデル「SpeechX」　米Microsoftの研究者らが開発映像から3Dシーンを生成できるVideo-to-3Dモデル「Neuralangelo」のコードが公開安定したビデオ合成ができる動画処理技術「CoDeF」　中国の研究者らが開発写真1枚から着衣3D人体モデルを高精度に生成する技術「TeCH」ユーザー特化のAIチャットボットが作れるアプローチ　G

gadie_8107 2023/08/23

あとで読む

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第六回：Stable Diffusionの基本2 / LoRAの概要と6つの例を紹介 (西川和久) | テクノエッジ TechnoEdge

LoRAとは前回はモデルの1つであるCheckpointについていろいろお話した。今回はStable Diffusionが扱えるモデルの中で次によく使われるLoRAについてがお題となる。連載の第一回では、自前で撮影した実在モデルの写真を学習させた専用のCheckpointを作り、そちらで生成した作例をいくつか掲載した。これはCheckpoint自体に学習結果を保存する形式で一般的にはファインチューニングと呼ばれている。このキーワード自体は、LLM(大規模言語モデル)でもよく耳にするので、覚えのある人もいらっしゃるのではないだろうか。

gadie_8107 2023/08/23

あとで読む

リンク

X（元Twitter）、ツイートを終了、エックセズでなくポストに。リツイートはリポスト。iOS公式アプリバージョンアップで判明 | テクノエッジ TechnoEdge

Twitter公式アプリのiOS版が7月31日に10.0にバージョンアップされ、「Twitter」から「X」に名称変更となりました。バージョンアップ内容は「機能強化と不具合の修正」となっていますが、今回はアプリ名称と、投稿の呼び方が変わるという、大きな変更が行われています。 iOS版アプリのアイコンは前回のバージョンアップで青い鳥から「X」ロゴに変わったものの、App Storeとホーム画面上の名前はTwitterのままでした。執筆時点でのAndroid版アプリのバージョンは10.0.0-release.0となっており、アイコンはXロゴですが、名称はTwitterのままです。また、iOS版アプリでは、投稿を意味するツイート（Tweet）が、ポスト（Post）と変更されています。 ▲上がiOS版、下がデスクトップ（Web）版リツイートは「リポスト」（Repost）と表現が変わっていま

gadie_8107 2023/08/01

twitter
SNS

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第三回：実際の撮影とポーズ/構図の関係。openpose_handで指問題解決？ (西川和久) | テクノエッジ TechnoEdge

現役グラビアカメラマンでありソフトウェアエンジニアでもある西川和久氏が、画像生成AIを使ったリアルなAIグラビア作成技術を解説する連載の第三回。今回はポーズ / 構図をテーマに、プロカメラマンとしての撮影スタイルとAI生成の共通点、現時点のAIでは難しい手指の表現を改善する技術についても説明します。(編集部) 実際の撮影と「呪文」の関係は似ている？グラビアでもポートレートでも、撮影する時は「立って」「座って」「前向き」「後ろ向き」……といったようにカメラマン側から指示を出す。この大雑把な指示はどのカメラマンでもすることだが、顔の向きだったり腕の形だったり足の位置といった細かいことは、「指示する」カメラマンと「指示しない」カメラマンとで分かれる。これは撮影スタイルの話なので、どちらが良い悪いではない。筆者の場合は割と大雑把で、細かい指示はせず、後の事はそのモデルに任せる＝個性だと思って

gadie_8107 2023/07/26

あとで読む

リンク

「Twitter」名称廃止、マスク氏お気に入りの「X」へ。鳥も解雇 | テクノエッジ TechnoEdge

運営会社をTwitter社からX社に変更したように、現在の青い鳥のロゴも「X」に変更し、ウェブサイトのアドレスも「X.com」を利用します。「まもなくTwitterブランドに、そしていずれは全ての鳥たちにも別れを告げることになる」「良いXロゴが今晩中に投稿されたら、明日には全世界で採用するつもりだ」「こんな風に、でもXで」マスク氏は以前から、SNSやメッセージだけでなく決済や個人間の送金など多数の機能を備えた「everything app」である「X」の提供を目指していました。ツイッターを手に入れたのも、手早く既存のユーザー数を買って自分の「何でもアプリ」Xの実現を早めることが目的だと、買収成立前から公言しています。 everything appの例は、中国の微信(WeChat）やLINEなど。マスク氏の狙いがどこまで実現するかは分かりませんが、目指すのは動画も通話も買い物もX

gadie_8107 2023/07/24

twitter
IT

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第二回：「アジア美女」最新モデルBRAV6作例とネガティブプロンプトの基礎 | テクノエッジ TechnoEdge

使用したNegative Promptは、「1.無し」、「2.ほぼ最小限」、「3.筆者標準」、「4.embeddingsを使う」の4つパターン。 4番目だけ他と違い別途ファイルが必要となり、ダウンロードしたファイルを[Stable Diffusionのホームディレクトリ]/embeddingsへコピーする。Negative PromptでEasyNegativeなどをよく見かけるがそれだ。ここではng_deepnegative_v1_75tとbadhandv4が該当する。Promptで書く替わりに、特別に学習したModelで同じ効果を得られるようになっている。無し (worst quality:2),illustration, 3d, painting, cartoons, sketch, illustration, 3d, sepia, (painting), cartoons, sk

gadie_8107 2023/07/19

あとで読む

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第一回：実在モデルで学習・LoRAでキャッチライト付加 (西川和久) | テクノエッジ TechnoEdge

百聞は一見に如かず。これってAI生成グラビア？AI画像生成に興味を持ったのは去年の年末頃だろうか。Twitterを眺めていると「どうやって撮った(作った)んだ？」と言う画像がたまに載っていたので調べると、Stable Diffusion Web UI (AUTOMATIC1111版)だった。元々グラビアを撮っていたこともあり、あまり撮らなくなってもグラビア好きなのには違いなく、試したくなったのは言うまでもない。 AI生成画像は大きく分けて2種類あり、一つはイラスト系、もう一つはリアル系。筆者が興味を持ったのは後者。どこまで実写に迫れるのかがその興味の対象だ。百聞は一見に如かず。扉の写真はAI生成画像。現時点でこの程度の写りは容易にこなす。とは言え、実際の撮影もそうなのだが、グラビア写真は数百枚撮ってカメラマンがある程度セレクトし納品したものが、納品先で更に絞られ、出版社などで更に絞り込