楽曲からボーカルを削除する この無料オンラインアプリケーションは、カラオケを作成することによって曲からボーカルを除去するのに役立ちます。 曲を選択すると、人工知能がボーカルと楽器を分離します。 このアプリケーションは、カラオケバージョン(ボーカルなし)とアカペラバージョン(ボーカルを分離)の2つのトラックを取得します。
ChatGPTのDALL·E 3による画像生成は非常に強力だ。 だがプロンプトエンジニアリングを駆使すれば、さらに限界を超えた表現が可能となる。 ブックマーク保存をおすすめします。 インフルエンサーたちが隠した技術 11月7日にOpenAI DevDayが開催されてからというもの、生成AI系インフルエンサーたちが大騒ぎしている。発表された機能やAPIの数々を見れば、そうなるのも無理はない。俺のような一般ユーザーでさえ、できることが一気に増えたのだから。 例えば自分だけのChatGPTを簡単に作成・共有できるGPTsだ。俺もさっそく触り、本しゃぶりの知識を全部突っ込んだAishabriを作ってみた*1。 https://chat.openai.com/g/g-x7GtBiqrn-aishabrichat.openai.com だが、インフルエンサーは新たに登場した機能ばかり口にし、その影で失
コード・インタープリターはChatGPTの有料版「ChatGPT Plus」で、GPT-4の付加機能として呼び出せる。 画像:筆者によるスクリーンショット ChatGPTの有料版である「ChatGPT Plus」(月額20ドル)には、7月初めから「Code Interpreter(コード・インタープリター)」という機能が追加された。 この機能が画期的だとして、一時ネットでは大いに話題になった。これまでは面倒だった「データ集計」などを、チャットの命令だけで実行できるからだ。 データ集計は、Excelなどの表計算ソフトやPythonなどのデータ処理に強いプログラミング言語で処理することが多い。 しかしコード・インタープリターでは、それらを使う必要はほとんどなく、データさえ用意できればいい。さまざまな手間がほぼゼロになり、ChatGPT任せにできる。 そうはいってもピンと来ない人も多いはず。そこ
画像生成AIのStable Diffusionは、文章を入力するだけでイラストや写真を自動で生成してくれます。しかし、この画像生成のプロセスは複雑な処理を何度も行うため、ハイスペックなGPUを搭載したマシンが必要となります。そんなStable Diffusionをスマートフォン上で、1枚2秒未満という速度で画像生成できるようにした「SnapFusion」を開発したと、ノースイースタン大学と写真共有アプリ・Snapchatの開発企業であるSnapの研究者が発表しました。 SnapFusion https://snap-research.github.io/SnapFusion/ SnapFusionが爆速で画像を生成する様子は、以下のムービーで見ることができます。 On-Device Demo for SnapFusion - YouTube iPhoneでSnapFusionを実行している
「GPT-4」発表 日本語でもChatGPT英語版より高性能、司法試験で上位10%、「この画像何が面白いの?」にも回答(1/3 ページ) 米OpenAIは3月14日(現地時間)、大規模言語モデル「GPT-4」を発表した。テキストでのやりとりだけでなく、新たにユーザーから画像を受け取り、適切な情報も返せるようになったという。司法試験の模擬問題を解かせたところ、現在の「ChatGPT」が採用しているGPT-3.5では受験者の下位10%ほどのスコアしか取れないのに対し、GPT-4では上位10%のスコアで合格するとしている。 ChatGPTの有料版「ChatGPT Plus」やAPI経由ですでに利用できるようになっている。 専門的領域なら人間レベル 日本語でもGPT-3.5の英語版より高性能に GPT-4の性能について、同社は「現実世界のシナリオにおいては人間に劣ることも多いが、(司法試験の模擬問
1.はじめに 今回ご紹介するのは、音声と1枚の顔画像を使って、顔画像がまるで話しているような動画を作成するOne Shot Talking Faceという技術です。 *この論文は、2022.12に提出されました。 2.One Shot Talking Face とは? 下記が、One Shot Talking Faceの概略図です。まず、上段のAudio-visual Correlation Leraning(音声と画像の相関性学習)を行います。 特定話者の音声と顔のキーポイントの動きとの相関性をAudio-visual Correlation Transformer に学習させます。 学習後は、One-shot Generation(音声と一枚の顔画像から動画作成)を行います。音声と1枚の顔画像をAudio-visual Correlation Transformerに入力すると顔のキー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く