並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 8 件 / 8件

新着順 人気順

音声の検索結果1 - 8 件 / 8件

  • 商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生|DTMステーション

    Home ACID・MusicMaker 商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生 ドイツMAGIXから定番の波形編集ソフトの新バージョン、SOUND FORGE Pro 18およびSOUND FORGE Pro 18 Suiteがリリースされました。今回のバージョンアップの目玉はAIを利用した音声合成機能を搭載し、日本語でテキストを入力すると、非常にリアルで自然な声で、そして高音質なサウンドで喋り声が生成されることです。VOICEPEAKやVOICEVOX、A.I.Voice、CoeFont……などなど、ここ数年で急速に進化し、数々のソフトが出てきたTTS=Text to Speech(音声読み上げソフト)の世界にSOUND FORGEが殴り込みをかけてきた格好です。しかも単なるTTSに留まらず、翻訳機能も搭

      商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生|DTMステーション
    • 怒る客の声、AIで穏やかに ソフトバンクがカスハラ対策 - 日本経済新聞

      ソフトバンクは15日、人工知能(AI)で客の通話音声を穏やかなトーンに変換する技術の事業化を目指すと発表した。顧客による迷惑行為「カスタマーハラスメント(カスハラ)」に対する取り組みの一環で、コールセンターの電話対応業務に利用する。2025年度中の事業化に向けて、東京大学と研究開発や検証を進める。ソフトバンクの新規事業提案制度「ソフトバンクイノベンチャー」から生まれた。電話口で怒鳴るなどの迷惑

        怒る客の声、AIで穏やかに ソフトバンクがカスハラ対策 - 日本経済新聞
      • あのキャラの声、AIで勝手に再現「無断AIカバー」氾濫 声優と弁護士に聞く「声の守り方」と未来

        自分の声やフリーの声素材、著作権フリーの楽曲などで作るのならば問題はない。関係者を悩ませているのは、声優や歌手などの声を勝手に使った“無断AIカバー”だ。 人気歌手や声優の声を無断でAIに学習させ、無関係な歌を歌わせたり、セリフを言わせたりする無断AIカバーは、アニメファンなどが好きなキャラの声で勝手に制作し、動画SNSなどで人気を集めている。 声そのものが商品である声優にとって、無断AIカバーが作られるのは深刻な問題だ。「早急に何とかしたいと思っているのですが……」。声優の甲斐田裕子さん(アニメ業界の立て直し・発展を目指す有志団体「日本アニメフィルム文化連盟(NAFCA)」理事)は、対策の難しさに頭を抱える。 声を守ることに特化した法律がないことや、作品の関係者が多岐にわたること、関係者の間でも意見が割れていることなどが、問題を複雑にしている。 声優が自らの声でAI音声を作り、新たなビジ

          あのキャラの声、AIで勝手に再現「無断AIカバー」氾濫 声優と弁護士に聞く「声の守り方」と未来
        • zenncast - 技術トレンドをAIがラジオに変換

          Zennのトレンド記事をまとめてAIがラジオをつくります。毎朝7時に更新。 お便りも募集中。送っていただいたお便りはAIパーソナリティが読み上げます。

            zenncast - 技術トレンドをAIがラジオに変換
          • Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する

            概要 最近の音声認識技術の進歩はすごいですね! 特にOpenAIの最新モデルであるWhisper large-v3は、日本語の音声データでもかなりの高精度で文字起こしを行うことができ、APIも公開されています。 ただし簡単に使用でき汎用性も高い一方で、大量に使用する場合の高コストやプライバシーの懸念もあるため、ローカル環境で効率よく高精度な文字起こしを実現するモデルが多数開発されています。 今回は、その中でもGPUを使用した高速推論が可能な「Faster Whisper」を用いて、AWS SageMakerでカスタム文字起こしエンドポイントを構築してみたので、手順を解説していきたいと思います。 実装コードは以下のリポジトリにあります。 順番通りJupyterNotebookを実行すると問題なく動作するはずです。 Faster Whisperとは Faster WhisperはOpenAIの

              Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する
            • オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK

              生成AIのChatGPTを手がけるアメリカのベンチャー企業「オープンAI」は処理スピードを速めて質問するとすぐに反応し、自然に会話ができる最新モデルを発表しました。IT各社も性能を高めた生成AIを次々と発表しており、開発競争が激しくなっています。 「オープンAI」が13日、発表したのは最新モデル「GPT-4o」です。 処理スピードを速めて文字と画像、それに音声による認識能力を大幅に向上させました。 大きな特徴は音声の反応速度です。 これまでのモデルでは反応の遅延がありましたが、このモデルでは質問すると人と同じように自然に会話ができるとしています。 発表会では研究チームの担当者が「少し緊張しています。落ち着かせるのを手伝ってもらえますか」と尋ねると生成AIが「深呼吸して、あなたが専門家であることを思い出して下さい」と自然に回答する様子が紹介されました。 また、通訳として2人の会話の間に入り英

                オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK
              • mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita

                Whisperでのリアルタイム文字起こしの手法は「Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介」を参考にした。 mlxのwhisperセットアップは前回の記事を参考ください。 本題 ストリーミング処理を行うには音声の無音検知が必要となるので調べたところ、faster-whisperでもVAD(Voice Activity Detector)にSilero VADを使っている。 それのJS版であるricky0123/vadで書かれているコードがあったのでmlx用に一部書き直して試してみた。 ファイル構成 import os import time from flask import Flask, request, render_template import whisper import threading UPLOAD_FOLDER = 'uploads' ALLOWED

                  mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita
                • OpenAI、「GPT-4o」を発表、2倍速く、50%安く、~テキスト・音声・画像すべてを理解/新しい「ChatGPT」アプリも、Windows版は今年後半リリース予定

                    OpenAI、「GPT-4o」を発表、2倍速く、50%安く、~テキスト・音声・画像すべてを理解/新しい「ChatGPT」アプリも、Windows版は今年後半リリース予定
                  1