この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ
ChatGPTを具体的なシーンに合わせて活用する方法を練っていこう。今回は「文章の校正や推敲(すいこう)」に活用する想定で、具体的な使い方を考えてみたい。 文章の題材として、ChatGPT自身に考えてもらった以下のようなエッセイ風の文章をベースにする。ChatGPTを使って、この文章をより良いものにしていく。 (文章ver.1)ChatGPTの出力──「昨日雪が降ったので庭で遊んだ。白い雪が積もり、まるで魔法のような雰囲気が漂っていた。初めて触れる雪は、手のひらで感じる冷たさが新鮮でワクワクした。雪だるまを作りながら、冷たい雪が手に触れる感触が心地よかった。庭中には静寂が広がり、雪が降る音だけが耳に響いた。白い銀世界で遊ぶことは、日常の喧騒から離れ、心に静寂をもたらしてくれる素晴らしい経験だった。」 このままの文章としてやや違和感があるので、まず筆者が軽く手を加えて以下の様に整えた。ここか
https://www.reddit.com/r/LocalLLaMA/comments/1cvw3s5/my_personal_guide_for_developing_software_with_ai/?rdt=40405 はじめに 私は個人プロジェクトでコードを書く際、特に自動化のためのものを書く際には、AI を活用しています。この点について、人によって意見が分かれるようです。同じように AI を使っている人もいれば、AI が良いコードを書くことは不可能だと考える人もいます。私の分野の専門家の間でも同様の考え方に遭遇し、AI の使い方が人によって異なるのかもしれないと気づきました。 私自身のバックグラウンドですが、私は開発マネージャーであり、業界で長年の経験を積み、大学院でもソフトウェア開発を学んできました。ですので、このガイドは素人ではなく、大規模システムの構築と運用に関するかなり
[速報]マイクロソフト、PCに話しかけながら画面を操作するだけで生成AIがRPAフローを自動生成してくれる、Power Automate「AIレコーダー」発表 マイクロソフトは、日本時間5月22日未明から開催中のイベント「Microsoft Build 2024」で、PCに話しかけながら画面を操作するだけでRPAフローを自動生成してくれる、Power Automateの新機能「AIレコーダー」を発表しました。 人間に操作を教えるように、AIに話しながら操作 これまでRPAフローを作成する方法として、マウスやキーボードなどの操作を記録することで基本的なRPAフローを作成することが可能でした。 今回発表された新機能「AIレコーダー」は、まるで人間に言葉で説明しながら業務アプリケーションの操作を教えるように、マウスとキーボードを操作しつつ音声で説明することで、どのような意図で操作しているのかを詳
筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統
今回は、Midjourney初心者の方に向けて、Midjourney(ミッドジャーニー)の始め方と使い方をわかりやすく解説します。 Midjourney V5.2に対応。 2023年8月11日更新になります。 この記事は一部有料となっております。 始め方、基本的な使い方は無料でお読みいただけます。 その他コンテンツは有料となります。 無料範囲 Midjourneyの始め方 有料プランサブスクリプションの契約方法 Midjourneyの基本的な使い方 商用利用について 有料範囲 Midjourney絶対に知っておくべき便利機能6選 Midjourneyコマンド一覧 Midjourneyプロンプトパラメータ一覧 Midojourney参考プロンプト集(100枚以上の画像) 画像加工で使えるツールの紹介 それでは初めて行きましょう。 コレスゴチャンネルは、Youtubeでも活動しています。 Mi
声をAIで変換!? RVCとは? RVC(Retrieval-based-Voice-Conversion)は、最新のAI技術を活用した声変換ツールです。中国で開発されたため、UIは中国語で記載されていますが、日本語での説明もされています。 AIに音声データを渡すことで音声の特徴を学習させ、音声データを変換することが可能です。リアルタイムでの声を変換することもでき、様々なシチュエーションでの活用が期待されています。 他のボイチェンとの違い 他のボイチェンでは、ディープラーニングの仕組みを活用しているなど、そもそもの仕組みが異なります。 RVCではAIが処理をすることで、高品質かつ学習時間の短さが大きなポイントです。環境さえ揃えれば、誰でも無料で使える点も強みと言えるでしょう。 RVCの用途やメリット 便利なRVCですが、どのように活用できるのでしょうか。ここでは、RVCの用途やメリットにつ
RVC Wiki 音声AIの情報を纏めるWikiです トップページページ一覧メンバー編集 トップページ 最終更新:ID:2O6TeCJ/UA 2024年03月29日(金) 22:36:55履歴 Tweet Welcome to RVC Wiki! 概要 RVCに関する情報をまとめるで。 so-vits-svcや今後出てくる他の音声AIなどについてもまとめるで。 Menuから行きたいページに飛ぶんや 編集制限はかけてないから、どんどん編集していってな R-18注意やで Please note that contains NSFW voices. なんJRVC部現行スレ 【ボイスチェンジャー】なんJRVC部 6 【ボイスチェンジャー】なんJRVC部 5 なんJRVC部 4 なんJRVC部3 なんJRVC部3 なんJRVC部2 次パートが出来たら過去ログページ作成予定すでにPart2だがまだ作っ
今回は、RVC学習済データとVC Clientを使って、リアルタイムで自分の声を別の声に変える方法について解説します。 RVC(Retrieval-based-Voice-Conversionの略)は中国初のAIボイスチェンジャーで、精度と学習・変換速度がやばいです。 従来からあるMMVCと違いボイチェン感がなく、本当に違和感がなくなめらか。 まさにコナン君の蝶ネクタイのようにリアルタイムで声を変えてくれます。 大まかな流れは「RVC学習済データを用意する」ー「VC ClientでRVC音声データを読み込み」ー「リアルタイムでボイチェンして録音する」 すでに学習させているRVCデータを使うのでハイスペックなパソコンは必要ありませんし、お金もかかりません。 私の環境はWindowsですが、MACでも動くはずです。 今回は録音する方法になりますが、リアルタイムでボイチェンできるのでDiscod
最近、AIボイスチェンジャーで話題になっているのが「RVCボイスチェンジャー」です。自分の声をリアルタイムに別人の声に変換して出力でき、精度が高くて変換速度も早いので人気を集めています。 ただし、このソフトは日本語対応が不完全で、使用するには事前に音声データをAIに学習させるのも必要です。そのため、初めて利用する方は、少し迷っているかもしれません。 この記事では、果たしてRVCボイスチェンジャーとはどんなものか、使い方やモデル配布サイトについて、詳しく紹介していきます。 Part 1. RVCボイスチェンジャーとは何ですか? RVCは「Retrieval-based-Voice-Conversion」の略で、中国が開発したAIボイスチェンジャーのことです。AI学習を導入したので、従来のボイスチェンジャーと比べると、精度と学習・変換速度が格段に違います。その凄さは機械で声を変換させた感じが無
本旨手軽にOff Vocal音源を作成できる時代になりました。情報共有および備忘録です。ただし、歌ってみた動画等には絶対使わないように。 時代はAIだよ、AIカラオケに行くのが面倒で、どうせ歌える環境があるんだからもう打ち込みでオケ音源作っちゃえばいいじゃんの境地に達しました。ぱっくんです。 とはいえ打ち込みって死ぬほどめんどくさいし、大体音色が納得行かなくて中途半端なプロジェクトを大量生産するだけになりがち。 妥協して某歌っちゃえるカラオケ音源配信チャンネルの音源で歌うも気分は上がらない。 そんなわがままなあなたに朗報です。AIを使え。 ※権利関係は詳しくないけど「歌ってみた」には絶対に使うなと私の直感は囁いています。使うなよ。 UVR5をパソコンにインストールしようなに?スマホしか持ってない?残念ながらここにあなたの求める情報はない。回れ右しましょう。 ページにとんだら「Downloa
各項目について詳しく解説していきます。 学習元の音声データの収集 まずはモデル制作のために必要な音声データを集める作業です。 自分の音声を読み込ませるような場合は、声の録音が必要です。インターネット上から音声データを探して学習させることも可能です。 なお、学習のために必要なデータは10〜50分になります。モデルのクオリティに関わるので、少なすぎないように気をつけましょう。また、長すぎても品質が落ちる場合もあるので注意が必要です。 ここでは収集のコツについてご紹介していきます。 録音環境の設定 良質な学習データにするためには、適切な録音環境の設定が重要です。 まず、静かな部屋を選び、外部の騒音やエコーを最小限に抑えます。高品質なマイクロフォンの使用と、マイクと話者の距離を適切に保つことも必要です。 さらに、一貫した音量とクリアな発音で録音を行い、音声データの一貫性を保つことが大切です。 これ
以下の記事が面白かったので、簡単にまとめました。 ・Navigating the Challenges and Opportunities of Synthetic Voices 1. Voice Engine「Voice Engine」は、テキスト入力と単一の15秒音声サンプルを使用して、元の話者によく似た自然な音声を生成するモデルです。 「OpenAI」では「Voice Engine」を開発し、それを使用して「Text-to-Speech API」「ChatGPT Voice」「Read Aloud」で利用可能なプリセット音声を強化してきました。同時に、合成音声が悪用される可能性があるため、広範なリリースに向けて慎重かつ十分な情報に基づいたアプローチをとっています。合成音声の責任ある導入と、社会がこれらの新しい機能にどのように適応できるかについて対話を開始したいと考えています。 2.
すでにDifyの可能性に気づいていらっしゃる方々には釈迦に説法で恐縮ですが、これから試してみようとされている方も結構いらしたのでDifyを使いこなせるようになるのがワクワクする話をできればと_ _ (この記事はぼくなりにかなり噛み砕いて説明したいと思います) 「Dify」のやばさ結論、Difyには信じられないくらい多くの機能が実装されていることです。笑 機能たちをざっくり紹介しながらこの衝撃をお伝えできたらと思います。 (ちょっと機能に即した形での紹介というよりはこんなことができるんだぁ、というイメージに寄せた形で解説しようと思います。) 好きなLLMでチャットボット好きなLLMを選択してボットを構築できるChatGPTやClaude、Geminiなど各社から優秀なモデルが公開されていますが、サービスとして利用すると各サイトをいったりきたりしなくてはいけません。 しかし、Dify上でAPI
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く