並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 213件

新着順 人気順

音声認識の検索結果1 - 40 件 / 213件

  • 新・必須ガジェット。テレワークのストレスを全部解決してくれました

    新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀 もう手放せない。 最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。 さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭

      新・必須ガジェット。テレワークのストレスを全部解決してくれました
    • iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。

      iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポートされています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し「iOS 17.4/iPadOS 17.4 Build 21E219」を正式にリリースしましたが、このiOS/iPadOS 17.4ではAppleのポッドキャストアプリで文字起こし機能が追加サポートされています。 文字起こし機能により、英語、スペイン語、フランス語、およびドイツ語でオーディオと同時にテキストがハイライト表示されエピソードを追うことが可能 リリースノートより Appleによると、ポッドキャストアプリの文字起こし機能は、本日より最新のエピソードに文字起こししたテキストが追加され、過去のエピソードも今後順次文字起こし処理さ

        iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。
      • Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。

        Appleが新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー充放電回数や製造日表示などを追加した「iOS/iPadOS 17.4」を正式にリリースしています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し新しい絵文字やポッドキャストアプリの文字起こし機能などを実装した「iOS 17.4 Build 21E219」および「iPadOS 17.4 Build 21E219」アップデートを正式にリリースしたと発表しています。 このアップデートでは、新しい絵文字とApple Podcastでの文字起こしが導入され、iPhoneでのその他の機能、バグ修正、およびセキュリティアップデートも含まれます。 リリースノートより抜粋 iOS/iPadOS 17.4では

          Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。
        • 「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】

            「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】
          • 文字起こしアプリで伝言ゲーム

            1971年東京生まれ。デイリーポータルZウェブマスター。主にインターネットと世田谷区で活動。 編著書は「死ぬかと思った」(アスペクト)など。イカの沖漬けが世界一うまい食べものだと思ってる。(動画インタビュー) 前の記事:影だけ悪魔の人になりたい > 個人サイト webやぎの目 ルール 肉声で喋る→アプリで文字起こし→その結果をiPhoneで読み上げ→ 別のアプリで文字起こし → また読みあげ → またまた別のアプリで文字起こし …を繰り返す。 そうして文章がずれていくさまを楽しもう。

              文字起こしアプリで伝言ゲーム
            • 「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024

              「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis

                「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024
              • superwhisperでの音声入力を試す

                superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                  superwhisperでの音声入力を試す
                • chatGPTとwhisperで議事録作成APIを作ってみた(備忘録)

                  はじめに 本記事では、議事録作成の自動化を目的としてOpenAIのChatGPTとWhisperのAPIを組み合わせたワークフローを紹介します。このワークフローでは、まず会議の録音データをWhisperで文字起こしし、その後、ChatGPTを用いて要約を行います。 使用したコードはこちらで共有しています:GitHubリポジトリ ワークフロー ワークフローの概要です。詳細は後述します。 Whisper周りの工夫 25MBのファイル容量上限 Whisper APIは25MBのファイル容量上限があります。そのため容量の大きい動画であれば音声のみを抽出し、音声の圧縮をするなどの対応が必要があります。 では、25MBは具体的にどのくらいの録音時間に相当するのでしょうか?4G音声の電話のビットレート(12.65kbps)を基準にすると、およそ4.4時間の録音が可能です(参考記事)。今回のデモでは、最大

                    chatGPTとwhisperで議事録作成APIを作ってみた(備忘録)
                  • ChatGPTのアプリ版すごくね!?

                    モバイルアプリ版に実装されてる音声入出力機能が無課金ユーザーにも開放されたってニュースを見て貧乏人の俺は早速ダウンロードしたわけね。 英会話の練習に使えるみたいなニュースを見てたから興味津々でトライしたわけよ。 そしたらまあ俺の英語力では話すのも聞き取るのもままならず、到底使いこなせる”域”に達してねえなこりゃ、と早々に自分に失望したよ。 はあ、アンインスコするか・・・と思いながら設定ちょろちょろ弄ってたら「Speach」の欄にMain Languageって項目があって、そこがAuto-Detect(自動検出)になってたんよね。 あっこれのせいか!俺の英語力が悪いからじゃなかったんだと思って、Englishに切り替えてもう一回やってみたわけ。 そしたら案の定結果は変わらずさらに落ち込んだ。 で、もうどうでもいいやと思いながら日本語で適当に話しかけたんだよ。 そしたら! なぜか俺が日本語で話

                      ChatGPTのアプリ版すごくね!?
                    • 【山田祥平のRe:config.sys】 AIがもたらす同時通訳の新しい当たり前

                        【山田祥平のRe:config.sys】 AIがもたらす同時通訳の新しい当たり前
                      • `large-v3` release · openai/whisper · Discussion #1762

                        We're pleased to announce the latest iteration of Whisper, called large-v3. Whisper-v3 has the same architecture as the previous large models except the following minor differences: The input uses 128 Mel frequency bins instead of 80 A new language token for Cantonese The large-v3 model is trained on 1 million hours of weakly labeled audio and 4 million hours of pseudolabeled audio collected using

                          `large-v3` release · openai/whisper · Discussion #1762
                        • ゲームキャラの制作時間9割減 声色の感情、表情に反映 - 日本経済新聞

                          システム開発のCACホールディングスはこのほど、人工知能(AI)による感情解析でゲーム制作を効率化するサービスを始めた。声優が吹き込んだセリフの感情をAIが解析してCG(コンピューターグラフィックス)に自動反映させ、キャラクターに表情をつける制作にかかる時間を最大9割ほど削減できるとうたう。国内外のゲーム会社に売り込むとともに、メタバース(仮想空間)の領域への応用もめざす。ゲームの制作支援サー

                            ゲームキャラの制作時間9割減 声色の感情、表情に反映 - 日本経済新聞
                          • ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」

                            チキン@ライター @HeroofChickens フリーランスのライター4年目。リストラがきっかけ。Kindle出版1位、Kindleプロデュースで1位・ベストセラー取得。商業出版のブックライティング中(2024年の5月ごろ出版かな?) webwhiter-skill.com/job/

                              ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
                            • macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能に。

                              macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能になりました。詳細は以下から。 Appleは2020年にApple Siliconを搭載したMacを発表以降、Apple SiliconのNeural Engineを利用した「音声入力(Dictation)」機能を強化し、現在Apple Siliconを搭載したMacでは、多くの言語で音声入力リクエストはオンデバイスで処理されるようになっていますが、 Appleシリコンを搭載したMacでは、一般的なテキストの音声入力リクエスト(例えば、メッセージやメモの作成は含まれますが、検索ボックスへの音声入力は含まれません)は多くの言語についてデバイス上で処理され、インターネット接続は必要ありません。また、音声入力できるテキストの長さに制限はなく、タイムアウトもありません。 Macでメッセージや書類を音声

                                macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能に。
                              • Introducing a foundational multimodal model for speech translation

                                Today, we’re introducing SeamlessM4T, a foundational multilingual and multitask model that seamlessly translates and transcribes across speech and text. SeamlessM4T supports: Automatic speech recognition for nearly 100 languagesSpeech-to-text translation for nearly 100 input and output languagesSpeech-to-speech translation, supporting nearly 100 input languages and 35 (+ English) output languagesT

                                  Introducing a foundational multimodal model for speech translation
                                • whisper、whisper.cpp、faster-whisperの比較

                                  現状のwhisper、whisper.cpp、faster-whiperを比較してみたいと思います。 openai/whisperに、2022年12月にlarge-v2モデルが追加されたり、色々バージョンアップしていたりと公開からいろいろと進化しているようです。 CPU向けにC/C++で書かれたバージョンです。Core ML supportだそうですので、Mac向け感が強いです。 CTranslate2でWhisperモデルの書き直して、オリジナルと同等の精度で4倍速く、メモリ使用量も少ないそうです。 以降、すべてGoogle Colabで実行しています。 サンプルは、アナウンスの音声(WAV)の場合(48秒)を試しました。 結果 faster-whisperのGPUは噂通り爆速でした。 本家whisperはCPUが速いです。GPUでも初期に比べて85.62s → 23.9sに高速化してま

                                    whisper、whisper.cpp、faster-whisperの比較
                                  • さようならCortana──Copilot登場でMicrosoftがサポート終了へ

                                    米MicrosoftはサポートページでWindowsでのCortanaのサポート終了を告知した。「2023年後半以降、WindowsではスタンドアロンアプリとしてCortanaはサポートされなくなります」となっている。 2014年に「Windows Phone 8.1」の新機能としてデビューしたCortanaは、米Appleの「Siri」対抗の音声アシスタントと目されていた。その後、Windows 10のタスクバーで利用できるようになったが、Windows 11ではタスクバーから消えていた。 Microsoftが5月に開催したBuild 2023で発表した「Windows Copilot」は、Cortanaよりはるかに高機能なアシスタントなので、Cortanaの役目が終了になっても当然だろう。 MicrosoftはCortanaのWindowsでのサポート終了時期について具体的にはまだ発表

                                      さようならCortana──Copilot登場でMicrosoftがサポート終了へ
                                    • Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性:Gurman氏 - こぼねみ

                                      Appleは今年のWWDCで「Hey Siri」の「Hey」を省くという大きな変更を発表する可能性をBloombergのMark Gurman氏がツイートしています。 Siri単に「Hey」をなくすだけなので、わずかな変化のようにもみえますが、決してそうではなく、この変更は技術的な挑戦であり、相当量のAIトレーニングと根本的なエンジニアリング作業を必要となるとGurman氏は以前報告していました(関連記事)。 というのも「Hey Siri」にはSiriが複数の異なるアクセントや方言で「Siri」という単一のフレーズを理解できるようにすることが含まれており、「Hey Siri」という2つの単語があることで、システムが正しく信号を取得する可能性を高めることができるからです。 AppleがWWDCで発表する見込みのMRヘッドセットは音声コントロールを搭載すると噂されており、Siriの改良は新デバ

                                        Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性:Gurman氏 - こぼねみ
                                      • Whisperで文字起こしする方法(ローカル環境にDockerを添えて)

                                        音声のテキスト変換 Web上にいくらでも情報があるWhisperでの文字起こしです。API使うとお金がかかるので、ローカル環境でDocker使って(Docker使えれば)手軽に実行できるのが特徴です。 CPUでもGPUでも動きます。Apple SiliconMacでもLinuxでも多分Windows(WSL2)でも動きます。 Dockerファイルや使うソフトはGitHubのリポジトリに公開しています。 この記事は上記リポジトリの自分のための使い方のメモです。 使い方 ファイル準備 文字起こしする音声ファイルを用意します。ここではinput.mp3とします。 Docker準備 Dockerがない人は、Dockerをインストールしましょう。LinuxかWindows(WSL2)なら、とりあえず以下コマンドを実行すればOKです。Macの人はDockerデスクトップを使いましょう。 $ curl

                                          Whisperで文字起こしする方法(ローカル環境にDockerを添えて)
                                        • NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表!AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト

                                            NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表!AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト
                                          • tl;dv.io|Zoom 、Google Meet & MS TeamsのためのAIミーティングノート作成ツール

                                            tl;dv は、組織全体の会議から価値を得るお手伝いをします。記録、書き起こし、要約、生成、自動化することで、あなたと組織にとって価値ある会議の洞察を得ることができます。数分でセットアップ完了。

                                              tl;dv.io|Zoom 、Google Meet & MS TeamsのためのAIミーティングノート作成ツール
                                            • whisper.cppのCore ML版をM1 MacBook Proで動かす

                                              OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順をなぞりつつ手元のMBPで動かしてみたメモ。 なお、実行環境は以下の通り: MacBook Pro M1 Max 64GB macOS Ventura 13.3.1 Core MLモデルの生成手順 依存パッケージのインストール whisper.cppのCore MLモデルの作成に必要なパッケージをインストールする。

                                                whisper.cppのCore ML版をM1 MacBook Proで動かす
                                              • ChatGPTとUnityでキャラクター対話システムを構築した - Qiita

                                                はじめに お気に入りキャラクターとおしゃべりできるものを作りました。 このようなシステムは他の人がTwitterでも作っていて二番煎じなのですがどんなものを組み合わせて作ってるのかだったりを書こうと思います。 使用技術など デバイス Looking Glass Portrait 裸眼立体視ディスプレイです。(公式サイト) このディスプレイがなくても対話システムは作れます。でも裸眼立体視ってロマンがあって、女の子をいろんな方向から見れるのは嬉しいですよね! アセットなど DynamicBone 髪の毛や胸が揺れるアセットです。(アセットストアページ) 髪の毛が揺れるのは嬉しいことなので使います。 OVRLipsync Oculusが作ったオーディオデータから口パクを作るアセットです。(公式サイト) 対話するのに口が動かないのは致命的なので使います。 DictationRecognizer 音

                                                  ChatGPTとUnityでキャラクター対話システムを構築した - Qiita
                                                • Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita

                                                  こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S

                                                    Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita
                                                  • ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp

                                                    ChatGPT APIの使い方 実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール 今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは!"}] ) print(complet

                                                      ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
                                                    • [ローカル環境] faster-whisperを利用してリアルタイム文字起こしに挑戦 - Qiita

                                                      はじめに WhisperAPI を利用せずにローカル環境でリアルタイム文字起こしに挑戦してみました。 本家Whisperだと音声ファイル形式以外の入力がうまくいかなかったため、faster-whisper を利用しました。 手探りで挑戦しましたので、何かご指摘がありましたらお教えいただければ幸いです。 効率的に文字起こしを行うための関連記事 [ローカル環境] faster-whisper を利用してリアルタイム文字起こしに挑戦2 [Windows] 文字起こしにデスクトップ音を利用する試み faster-whisperのパラメータを調べてみました [faster-whisper]ローカル環境でのリアルタイム文字起こしがいい感じに動作するようになった 2023 年 03 月 30 日 2023 年 04 月 05 日 更新 2023 年 04 月 26 日 更新 2023 年 04 月 28

                                                        [ローカル環境] faster-whisperを利用してリアルタイム文字起こしに挑戦 - Qiita
                                                      • YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用

                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米テキサス大学サンアントニオ校と米コロラド大学コロラドスプリングス校に所属する研究者らが発表した論文「Near-Ultrasound Inaudible Trojan(NUIT): Exploit Your Speaker to Attack Your Microphone」は、スマートフォンやスマートスピーカーの音声アシスタント(Siri、Google Assistant、Alexa、Cortana)に対する不可聴攻撃を提案した研究報告である。 その手口は、インターネット(動画や音楽、Web会議など)を通じて、人間には聞こえない音を流し、リモートでス

                                                          YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用
                                                        • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                                                          会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                                                            文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                                                          • Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ

                                                            OBS WebSocketの設定 OBSのWebSocket機能を有効にします。WebSocket機能は比較的新しい機能で、使ったことがない方も多いと思います。LAN内のコンピュータからOBSの各種プロパティを取得・変更できます。各種プログラミング言語から直接APIを呼べるので、「音声認識の結果を即時に画面に反映する」ような、頻繁に変更される値の更新に適しています。 設定方法は、OBSのメニューから「ツール」-「obs-websocket設定」をクリックし、出てきたダイアログの一番上のチェックボックス「WebSocketサーバーを有効にする」をオンにします。そして「パスワードを生成する」を押します。後述のプログラムで定数として使用します。これでWebSocket機能を使用できるようになります。 Pythonのプログラムから字幕変更 PythonのプログラムからOBSにWebSocketで接

                                                              Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ
                                                            • 「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能

                                                              「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画…

                                                                「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能
                                                              • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                                                東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                                                  超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                                                • 世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能

                                                                    世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能
                                                                  • ReazonSpeech - Reazon Human Interaction Lab

                                                                    ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                                                                    • 自作データセットでWhisperをファインチューニングしたら、独自用語だらけのクラロワ実況でも使えるようになった:「データセット作成編」

                                                                      とりあえず結果 40分くらいの動画で一旦文字起こししてとりあえずファインチューニングしてみた。 いったん試しくらいでやったから適当だったが、その学習済みモデルで別動画の推論をした結果以下の結果になった クラロワ実況の一文 正解の文章 めっちゃしやすくてで迫撃にもアチャクイを当てられるでしょ だもうマジで環境でゴレとかにもまあポイズンウッドだから普通に強くてエリポンも別にディガーで潰せると三銃士が来ても勝てるロイホグ系もねゴーストアチャクイゴブリンウッドだからめっちゃ強いんですよ 元のWhisperでpredictした文章 めっちゃしやすくてで迫撃にもあ着いを当てられるでしょ だもうマジで環境で5例とかにもはポイズングッドだから普通に強くてエリポンも別にリガーで潰せると30人が来ても勝てるロイホグ系もねゴーストアチャクイゴブリングッドだからめっちゃ強いんですよ 流石にゴレが5例になってたりデ

                                                                        自作データセットでWhisperをファインチューニングしたら、独自用語だらけのクラロワ実況でも使えるようになった:「データセット作成編」
                                                                      • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                                                                        株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                                                                          超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                                                                        • 会議ツール問わず、ワンクリックで書き起こし。自動議事録AI「YOMEL」 | Techable(テッカブル)

                                                                          福岡発スタートアップのアーニーMLG株式会社は、ワンクリックで全参加者分の発言の議事録を作成する自動議事録AI「YOMEL」を開発し、1月5日(木)より正式にサービス提供を開始しました。 議事録作成の手間を省くYOMELは、会議や商談などの場面における議事録作成の工数・負担を軽減するサービスです。 発話者ごとにAIが書き起こしをするため会話記録を残しておくことができるほか、会議中の重要な発言をワンクリックでメモに転記するだけで、発言内容を端的に要約する機能も搭載しており、議事録作成や要約作成の手間を省くことができます。 同サービスは、ユーザーが専用アプリをインストールし、会議開始時と終了時にデスクトップ上のボタンをクリックするだけで、全参加者の発言が書き起こされた会議記録のURLと、話中に転記したメモをもとに作成された議事録テキストを発行します。 オンライン会議ツールと連携して使用するサー

                                                                            会議ツール問わず、ワンクリックで書き起こし。自動議事録AI「YOMEL」 | Techable(テッカブル)
                                                                          • OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」

                                                                            OpenAIが発表した音声認識モデル「Whisper」は、日本語の音声でも精度高く文字起こしできるツールとして知られています。今回はAIsmiley編集部が「AIニュース原稿の読み上げ音声を素材にどのくらい精度高く文字起こしできるのか」や「生活騒音下における読み上げ音声でも結果は変わらないのか」について調べてみましたので是非やり方を真似して試してみてください。 ■音声認識モデルとは? 音声認識モデルとは、AIが人間の声を認識し、認識した音声をもとに何らかのデータをアウトプットする技術を指します。身近な音声認識モデルには、アレクサでお馴染みのAmazon Echoがあります。Amazon Echoなどのスマートスピーカーは、人間の声を認識し、その音声の意図を把握した後、情報検索を行ったり、接続されている電化製品の操作を行ったりします。 スマートスピーカーの他にも、入力された音声をリアルタイム

                                                                              OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」
                                                                            • 【Whisper】Pythonで音声ファイルを書き出ししてみよう!

                                                                              Whisperとは Whisperとは、OpenAIが開発している汎用的な音声認識モデルです。 Web上から収集した68万時間におよぶ音声データで学習され、音声翻訳や言語識別だけでなく、多言語音声認識を行うことができるマルチタスクモデルでもあるモデルになります。 Whisperを用いることで、音声からの文字起こしと音声からの翻訳処理を行えます。 この記事では2つの方法をPythonで解説します。 https://openai.com/blog/whisper/ https://github.com/openai/whisper 日本語の単語誤り率(WER/Word Error Rate)は6.4%とグラフに記載があります。 この数値は、Whisperが対応している他の言語と比較しても、上位に位置しており、高い精度で文字起こしが可能だと解釈できそうです。 また、5つのモデルサイズが提供されて

                                                                              • スマートスピーカーって一時期流行ったけど(追記あり)

                                                                                今も使っている人どれくらいいるんだろう。 これ、DSの脳トレから全然進化してないじゃん 〜追記〜 みんな色々な意見ありがとう。賛否両方読ませてもらってます!恥ずかしい?何が? ちなみに、DSのゲームは「脳を鍛える大人のDSトレーニング」ね。くりぃむしちゅーのANN第96回に出てきた、きいろ!も聞き取ってくれないというエピソードから考えたネタだよ。さすがにスマートスピーカーはそこまで精度悪くない。 くりぃむしちゅーのオールナイトニッポンおもしろいからみんな聞いてな!

                                                                                  スマートスピーカーって一時期流行ったけど(追記あり)
                                                                                • 話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった

                                                                                  インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。 筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI(人工知能)によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI(オープンAI)の音声認識AI「Whisper」だ。 同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言

                                                                                    話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった