サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
掃除・片付け
www.techno-edge.net
百聞は一見に如かず。これってAI生成グラビア?AI画像生成に興味を持ったのは去年の年末頃だろうか。Twitterを眺めていると「どうやって撮った(作った)んだ?」と言う画像がたまに載っていたので調べると、Stable Diffusion Web UI (AUTOMATIC1111版)だった。 元々グラビアを撮っていたこともあり、あまり撮らなくなってもグラビア好きなのには違いなく、試したくなったのは言うまでもない。 AI生成画像は大きく分けて2種類あり、一つはイラスト系、もう一つはリアル系。筆者が興味を持ったのは後者。どこまで実写に迫れるのかがその興味の対象だ。百聞は一見に如かず。扉の写真はAI生成画像。現時点でこの程度の写りは容易にこなす。 とは言え、実際の撮影もそうなのだが、グラビア写真は数百枚撮ってカメラマンがある程度セレクトし納品したものが、納品先で更に絞られ、出版社などで更に絞り込
妻が遠い世界に旅立って来年で10年を迎えます。筆者は妻が遺した歌声をもとに、歌唱合成でデュエットしたりするのをライフワークとしているので、声そのものは新たな「思い出」を作ることができるのですが、映像についてはそうはいきません。 今年の3月に、古いAppleのデジカメから救い上げた写真が奇跡的に1枚増えたくらいで、残った数百枚の写真、数十本の動画をAIで高精細にしたりとやっていました。これができるのもすごいことです。
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの論文をお届けします。 生成AI論文ピックアップ複数の自律AIエージェントが過去の経験を共有して未知のタスクを処理するモデル「Experiential Co-Learning」 画像から動く3Dシーンを生成する新モデル「DreamGaussian4D」 大規模言語モデルの返答が向上する「プロンプト26の原則」が公開。「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など 220以上の生成タスクが実
わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。 以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 YouTubeは今年、ブラウザーの拡張機能などで提供される広告ブロッカーへの対策を強化し、ユーザーが使用し続けると「広告ブロッカーの利用は、YouTube の利用規約で認められていません」と警告画面を表示するようになりました。 この画面が現れた場合、選択肢に従ってAdblock PlusやuBlock Originといった広告ブロッカーの設定からYouTubeを除外するか、広告表示のない有料プラン「YouTube Premium」を使うことが求められます。 警告画面は右上の×ボタンでいったん消すことはできるものの、そのままでは結局、動画再生時に再び警告画面を見ることになります。
運営会社をTwitter社からX社に変更したように、現在の青い鳥のロゴも「X」に変更し、ウェブサイトのアドレスも「X.com」を利用します。 「まもなくTwitterブランドに、そしていずれは全ての鳥たちにも別れを告げることになる」 「良いXロゴが今晩中に投稿されたら、明日には全世界で採用するつもりだ」 「こんな風に、でもXで」 マスク氏は以前から、SNSやメッセージだけでなく決済や個人間の送金など多数の機能を備えた「everything app」である「X」の提供を目指していました。 ツイッターを手に入れたのも、手早く既存のユーザー数を買って自分の「何でもアプリ」Xの実現を早めることが目的だと、買収成立前から公言しています。 everything appの例は、中国の微信(WeChat)やLINEなど。 マスク氏の狙いがどこまで実現するかは分かりませんが、目指すのは動画も通話も買い物もX
ご意見:この写真はAIの成果物で、そこを忘れないようにしないと ご意見:筆者の精神がおかしくなっていそう 忘れていないので、こうして記事にしているわけです。ただ、これをブラックボックスとして出してしまうと、信じてしまう人が出てくるかもしれません。そういう意味でもこういうことが技術的に可能であることを知ってもらう意義はあると思っています。 熱愛していた人を取り戻そうという人物は、そのために人類を補完しようとか、怪獣の細胞と合体させたり、ミトコンドリアがどうのこうのとかやりがちなのはフィクションのことで、彼らにも筆者のような技術があれば悪の道に走らなかったのではないかと、個人的には思います。残されたものの精神の安定には役立つと思います。現に、妻の歌声をコンピュータで再現する取り組みについては、死別し残された人の心のケアをするグリーフケアの観点から何度か取材を受けています。 ご意見:捏造した写真
使用したNegative Promptは、「1.無し」、「2.ほぼ最小限」、「3.筆者標準」、「4.embeddingsを使う」の4つパターン。 4番目だけ他と違い別途ファイルが必要となり、ダウンロードしたファイルを[Stable Diffusionのホームディレクトリ]/embeddingsへコピーする。Negative PromptでEasyNegativeなどをよく見かけるがそれだ。ここではng_deepnegative_v1_75tとbadhandv4が該当する。Promptで書く替わりに、特別に学習したModelで同じ効果を得られるようになっている。 無し (worst quality:2),illustration, 3d, painting, cartoons, sketch, illustration, 3d, sepia, (painting), cartoons, sk
オープンソースのAI声質変換(ボイスチェンジャー)ソフトウェア「RVC WebUI」が、日本語での表示に対応しました。 VITSという声質変換技術をベースにしたRVC(Retrieval-based Voice Changer)に、Webユーザーインタフェースを付加したのが「RVC WebUI」です。
怖い実話としてよく耳にする「ある日突然Goolgeアカウントから締め出され、抗議しても泣き寝入り」にこれまた強烈な例がありました。 遠隔診療のため医療機関の指示で幼児の生殖器の写真を送信した父親が、Googleから「有害なコンテンツ」のアップロードを理由にアカウント停止処分と当局への通報を受け、捜査の結果警察の疑いは晴れたもののGoogleは許さず、GmailやGoogle Fi電話番号を含むアカウントを永久に消去した事例を NY Timesが伝えています。 リンク先は複数の事例や関係者からの聞き取りを含む長大な記事ですが、ひとつの件の概要を引くと、 米サンフランシスコ在住の40代男性が、乳幼児の息子の性器に腫れがあり痛がっていることに気づき、診察のためAndroidスマートフォンで患部を撮影。2021年のコロナ下であったことから遠隔診療で相談したところ写真を送るよう指示され、妻が iPh
人気連載『生成AIウィークリー』で取り上げている注目論文を見ると、そこに中国IT企業の名前が頻繁に登場します。 EC大手のアリババ(Alibaba)、ゲーム大手のテンセント(Tencent)、TikTokの運営元であるBytedanceなどが常に顔を出しており、画像・音声・アニメーションと、生成AIのあらゆる分野で中国に勢いがあることがわかります。 そんな中、テンセントがなかなか衝撃的な技術を発表しました。「PhotoMaker」という画像生成AIです。これでなければできない、というものではないのですが、「ファインチューニングの事前作成不要」「元画像が少なくても良い」のに、人物のアイデンティティを維持した画像を生成できるというメリットがあります。 これまでは既存の画像AIモデルに多数の写真を読み込ませて本人性を学習させたものから新たなAIモデルやその簡易版であるLoRAモデルを作ってきまし
ブログサービスのTumblrが、分散型SNSサービスの標準プロトコルであるActivityPubを採用すると明らかにしました。 ▲Tumblr ActivityPubは、Twitter代替を目指すマストドン(Mastodon)、Pleroma、GNU social、PeerTube、Misskeyなどの分散型SNSのサーバ同士が投稿やユーザー情報をやり取りするための標準で、2018年1月にW3C推奨となっています。 関連記事:Twitter代替目指す分散型SNS「マストドン」、翻訳機能など追加。ブラウザメーカーのVivaldiも参入表明 TumblrはTwitterのリツイートに似たリブログという伝播性の高い仕組みが特徴で、かつては著作権的・性的に問題のある画像が次々と掲載されていることを問題視する声があったことでも知られています。 Twitterと並び立つテキスト・画像投稿サービスとして
Twitter公式アプリのiOS版が7月31日に10.0にバージョンアップされ、「Twitter」から「X」に名称変更となりました。 バージョンアップ内容は「機能強化と不具合の修正」となっていますが、今回はアプリ名称と、投稿の呼び方が変わるという、大きな変更が行われています。 iOS版アプリのアイコンは前回のバージョンアップで青い鳥から「X」ロゴに変わったものの、App Storeとホーム画面上の名前はTwitterのままでした。 執筆時点でのAndroid版アプリのバージョンは10.0.0-release.0となっており、アイコンはXロゴですが、名称はTwitterのままです。 また、iOS版アプリでは、投稿を意味するツイート(Tweet)が、ポスト(Post)と変更されています。 ▲上がiOS版、下がデスクトップ(Web)版 リツイートは「リポスト」(Repost)と表現が変わっていま
GoogleのCEOサンダー・ピチャイが、自然な文章で質問に回答するAIサービス『Bard』と、Google検索への組込みを発表しました。 ピチャイ氏によると、BardはGoogleが以前から研究してきたLaMDA (会話アプリケーションのための言語モデル)を元にした「実験的会話型AIサービス」。 Google検索にBardを組み込むことで、複雑なトピックについて文章で概要を答えたり、2つのものを比較したり、複雑な条件にあう答えを返すなど、従来の検索では難しかった答えが出せるようになります。 例のひとつでは、「ジェイムズ・ウェッブ宇宙望遠鏡(JWST)の新発見について、9歳児に話すならどんな内容にすべき?」という問いに対して、 「2023年、JWSTは「グリンピース」という愛称の銀河系を発見しました。小さく、丸く、豆のように緑色だったのでこの名前がつけられました」 「ジェイムズ・ウェッブ宇
初めましての方は初めまして。そうでないかたは大変お待たせしました。テクノロジーメディア TechnoEdge テクノエッジ、本日より始動します。 テクノロジーのカッティングエッジ / 最先端からの興奮と驚きを、未来が現実になってゆく感動を共有する媒体を目指して、編集部一同、やりたい放題に粉骨砕身してゆく所存です。 創刊にあたって改めまして、テクノエッジ編集長の Ittousai と申します。前職では2005年から約17年ほど、米国に本拠地があるガジェットブログの日本版編集部に所属しておりました。 多くの皆様にご愛顧いただいたEngadget日本版が今年3月で終了したことから、弊誌は「事実上の後継媒体」とご紹介いただくことも多いのですが、現在も更新中の米国版・中国版Engadgetと運営上の関係はなく、私を含めスタッフの一部が共通している以上の関連はありません。 何より、Engadgetは多
おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。 AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。 筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion(拡散)モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは「実は今は新しいAI技術を使っているんですよ」と付け加えなければいけません。 妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC(SoftV
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 気に入らない知人や何らかの理由で敵対する相手に対し、匿名で動物の糞尿にメッセージを添えて送りつけられるサービス「ShitExpress」が、サイトの脆弱性を突かれてデータベースをまるごとダウンロードされ、ハッキングフォーラムに公開される事態が発生しました。 ShitExpressのウェブページは日本語にも対応しており、そこには「あなたを悩ますあの人、この人を思い浮かべてみてください」、「もし、その人たちにクッサーいサプライズを贈ることができるとしたら?」と書かかれています。そして送りつけるウ〇コの種類(動物)や箱に飾りのスマイリーシールを貼付するか否かなどのオプションを選択して送付できるようになっています。価
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 ペトリ皿の上で人間の脳細胞を約80万個にまで培養した「DishBrain」に、科学者が原始的なゲーム『Pong』をプレイさせることに成功したと、査読付き科学ジャーナルNeuronに発表しました。 この研究を率いた研究者Brett Kagan博士は、「外部から情報を得て、それを処理し、リアルタイムで反応を返すことができる」と語っています。 話だけを聞いていれば、なんだか皿の上の小さな脳細胞の塊に自我があって、何らかの方法でコントローラーを操作してゲームをプレイしたかのうような話にもきこえます。しかし、いくら人の脳細胞とはいえ、目もなければ耳もない脳細胞のかけらがそのような高度な反応を示せるはずもありません。 で
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 エクストリームスポーツを効果的にマーケティングに取り込んできたエナジードリンクのレッドブルが新たに公開したのは、レッドブル・レーシングのF1マシンを世界最速のカメラ搭載ドローンでぴったり追跡する空撮映像です。 F1世界選手権の2024年シーズンは今週末に開幕します。昨シーズンはレッドブル・レーシングF1チームのマックス・フェルスタッペン選手が圧倒的な強さを見せつけて世界チャンピオンの座を防衛し、先頃行われたシーズン前の合同テストでも、圧倒的な安定感とスピードを誇示していました。 そんな自動車レースの頂点に立つレッドブルのF1マシンと世界チャンピオンを追いかけ回すドローンパイロットとして選ばれたのは、Dutch
米国のAIスタートアップSunoは、自社のAI作曲サービスである「Suno」をV3にバージョンアップしました。3月20日より、3からのカウントダウンをスタートしていましたが、日本時間の22日2時に、正式公開されました。 V3では、1回で作成できる曲の長さを従来バージョンであるV2の1分20秒をV3では2分までに伸ばし、インストゥルメンタル曲の指定、高音質化、多ジャンルへの対応など、多くの機能強化を行なっています。 これまではProおよびPremierの有償ユーザーのみがアルファ版を使えていましたが、正式版になったことで、無料ユーザーも1日10回、1回で2曲が同時に生成されるので、1日当たり最大20曲まで利用できることになります。 無料ユーザーアカウントで試してみましたが、V3がデフォルトとなっている他に、V3 Alpha版との大きな違いはありません(V2も選択できるようになっています)。
18年間テレビ番組制作者を務めたのち、文筆家として独立。家電から放送機器まで執筆・評論活動を行なう傍ら、子供の教育と保護者活動の合理化・IT化に取り組む。一般社団法人「インターネットユーザー協会」代表理事。 先日AV Watchの連載でBlackmagic DesignのBlackMagic Cameraを取り上げたことで、別の媒体からBlackmagic Cameraの特集をやりたいので手伝ってくれと声がかかるようになった。 ▲Blackmagic Camera ただその方向性が、Blackmagic Cameraを使えば凄い映像が誰でも簡単に、みたいなノリだったので、そういう方向性ならお手伝いできませんよ、とお伝えした。筆者も大人なのでまあ初心者向けの記事なのでそうしたキャッチコピーになるのはやむなしとは思うが、「誰でも簡単に」はさすがに違うんじゃないか。 どうもBlackmagic
実は「@x」のアカウントは2007年からずっと、サンフランシスコを拠点とする写真家の Gene X Hwang氏が使用していました。しかし、7月25日にこの「@x」アカウントが非公開化されています。 この時点ではTwitter / XからHwang氏に何の通告もなかったものの、同氏は「連絡があれば喜んで話を聞く」「納得のいく提案があれば、喜んでアカウントを手放すつもりだ」と述べていました。 その後27日になって、@xアカウントがこのSNSの公式アカウントとして生まれ変わっているのが発見されています。 しかしHwang氏によると、X(Twitter)側はこのアカウントが「本質的に『X』の所有物だというメールを送ってきた」のみで、金銭的補償は提案も含め一切なかったとのこと。 Hwang氏いわく「起こると思っていたことが起こり、私はそれをただ受けいれた」。X(Twitter)側は「利用可能な希望
著書に『宇宙世紀の政治経済学』(宝島社)、『ガンダムと日本人』(文春新書)、『教養としてのゲーム史』(ちくま新書)、『PS3はなぜ失敗したのか』(晋遊舎)、共著に『超クソゲー2』『超アーケード』『超ファミコン』『PCエンジン大全』(以上、太田出版)、『ゲーム制作 現場の新戦略 企画と運営のノウハウ』(MdN)など。 日本時間1月13日お昼過ぎから、複数のサードパーティ製Twitterクライアントが使えなくなっています。それらのアプリが通信に使用するAPIで認証エラーが起きており、トークンをリクエストしても返ってこないという状態です。 この件につき、何らかのバグや不具合ではなく、Twitterによる意図的な停止ではないかとの推測がありました。Twitter社内に独自の情報源を持つニュースメディアThe Information は、それが事実だと確認が取れたと報じています。 同誌が見たTwit
現役グラビアカメラマンでありソフトウェアエンジニアでもある西川和久氏が、画像生成AIを使ったリアルなAIグラビア作成技術を解説する連載の第三回。 今回はポーズ / 構図をテーマに、プロカメラマンとしての撮影スタイルとAI生成の共通点、現時点のAIでは難しい手指の表現を改善する技術についても説明します。(編集部) 実際の撮影と「呪文」の関係は似ている?グラビアでもポートレートでも、撮影する時は「立って」「座って」「前向き」「後ろ向き」……といったようにカメラマン側から指示を出す。 この大雑把な指示はどのカメラマンでもすることだが、顔の向きだったり腕の形だったり足の位置といった細かいことは、「指示する」カメラマンと「指示しない」カメラマンとで分かれる。これは撮影スタイルの話なので、どちらが良い悪いではない。 筆者の場合は割と大雑把で、細かい指示はせず、後の事はそのモデルに任せる=個性だと思って
Suno対抗のAI作曲サービスとして前評判の高かったUdioがパブリックベータとして一般公開されました。
Twitterの新CEOイーロン・マスクが、休眠アカウント約15億を近日中に削除し、名前を開放することを明らかにしました。 使いたかったユーザー名 (@のうしろの部分)が休眠アカウントに先取されていて残念だった場合には取得のチャンスであると同時に、アカウントを長い期間使っていなかった場合は削除されてしまう可能性があります。 イーロン・マスクによれば、削除されるのは「年単位でログインがなくツイートがないアカウント」 “ These are obvious account deletions with no tweets & no log in for years” と自明のアカウント削除と表現していることから、「作られた時から」ひとつもツイートがなく、何年もログインがない空アカウントの意味と思われますが、「何年もツイートやログインがない」アカウント、つまりかつては使われていたものの数年前から
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 映画俳優のロバート・デ・ニーロ氏が、2023年度のゴッサム・インディペンデント映画賞の授賞式におけるスピーチに登壇した際、読み上げるスピーチ原稿から当初予定していた記述が削除されていたことに関して、アップルと映画賞主催者を非難しました。 問題のスピーチはゴッサム賞のなかの一部門を受賞した作品を紹介するため、デ・ニーロ氏が用意したものでした。 事前の原稿は冒頭部分で「前大統領は在任中の4年間に3万回以上も嘘をつき、現在の報復キャンペーンでもそのペースを維持しています。しかし、その嘘の数々をもってしても、その本心を隠すことはできません。弱者を叩き、自然の恵みを破壊し、例えば『ポカホンタス』を差別的な言葉として使う
次のページ
このページを最初にブックマークしてみませんか?
『テクノエッジ TechnoEdge』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く