並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 213件

新着順 人気順

音声認識の検索結果41 - 80 件 / 213件

  • AI翻訳「人間超え」へ 技術が急発展 - 日本経済新聞

    語学の勉強をしなくても世界の人々と意思疎通できる時代がやってきた。人工知能(AI)を用いた「ニューラル機械翻訳(NMT)」技術が猛烈な勢いで発展しているからだ。言葉の壁は大幅に低くなった。翻訳業界は再編が始まった。街中では自動翻訳機が急増中で、観光業界や店舗、運輸、病院などに普及し始めた。将来的には自動翻訳機が1人に1台、普及する可能性も出てきた。【次回記事】自動翻訳機、1人1台時代へ 観光・交通で活躍30年分の技術を一気に凌駕「翻訳業界全体が、雷に打たれたような衝撃を受けた。これは50年に一度の破壊的技術であると」──。自動翻訳サービスを手掛けるXtra(エクストラ、東京・千代田)社長でロゼッタ執行役員の古谷祐一氏は

      AI翻訳「人間超え」へ 技術が急発展 - 日本経済新聞
    • 新・必須ガジェット。テレワークのストレスを全部解決してくれました

      新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀 もう手放せない。 最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。 さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭

        新・必須ガジェット。テレワークのストレスを全部解決してくれました
      • https://twitter.com/shuzonarita/status/1572947933712220161

          https://twitter.com/shuzonarita/status/1572947933712220161
        • 「ポーズ」と「合言葉」がなければ開かない自動ドア、文教大が開発

          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 文教大学川合研究室の研究チームが開発した「ユーザのアクションによって反応する自動ドアの開発」は、音声と姿勢で認証する自動ドアの開閉システムだ。自動ドアに設置したカメラで姿勢推定と音声認識を行い、あらかじめ決めておいたポーズと言葉が合致すれば開く。

            「ポーズ」と「合言葉」がなければ開かない自動ドア、文教大が開発
          • Google、「Googleアシスタント」への音声入力の一部を人間が聞いていることを認める Amazonに続き

            Google、「Googleアシスタント」への音声入力の一部を人間が聞いていることを認める Amazonに続き Googleのスマスピが録音したデータを、Googleと契約した「言語専門家」が聞いているとベルギーのメディアが報じ、Googleが公式ブログでこれを認めた。AmazonのAlexaも業務委託者が音声を聞いていることを4月に認めている。いずれも音声技術向上が目的としている。 米Googleは7月11日(現地時間)、音声アシスタント「Googleアシスタント」に対してユーザーが話しかけた音声の録音の一部を、社外の人間の「言語の専門家」が聞き、テキスト化していることを認めた。音声はアカウントと関連付けられないようになっており、人間に聞かせることの目的は、サービスの品質向上のためだとしている。 Googleアシスタントへの音声入力を録音し、サーバに保存していることはヘルプページなどでユ

              Google、「Googleアシスタント」への音声入力の一部を人間が聞いていることを認める Amazonに続き
            • 高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉

              どうもこんにちは、あんどう(@t_andou)です。 今回はOpenAIの高精度な文字起こしAI「whisper」を試してみました。 ただ試すだけでは面白くないのでもう少し実用的なことを…と言うことで、Youtube用の字幕を作ってみました。 実行環境 使用した動画と結果 まずはモデルごとに精度確認 small 処理時間 結果 所感 medium 処理時間 結果 所感 large 処理時間 結果 所感 使用した動画と結果その2 最後に 実行環境 GoogleColabでGPUはT4でした。 使用した動画と結果 以前、リアルな顔がしゃべるAIを作ったので、その動画を使います。 声もAIによるもののため、僕の耳には聞き取りやすいですが、whisperにとってはどうでしょうか。気になります。 (ちなみに、この動画内で話しているニュースの文章もAIによる生成物です。) www.youtube.co

                高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉
              • 音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携

                voicodという音声入力でメモを書けるシンプルなウェブアプリケーションを書きました。 音声入力でメモができるシンプルなアプリケーションを書きました。https://t.co/EHSKnNKNaL x-callbackを使ってショートカット.app 等と連携すれば、入力内容をNotionに保存したりできます。 Note: SpeechRecognitionに対応したブラウザ(ChromeやSafari)が必要 Source: https://t.co/NnzXVjlGnF pic.twitter.com/yzoA3VIzzl — azu (@azu_re) February 10, 2022 SpeechRecognitionというウェブブラウザで音声認識をするAPIを使っているので、このAPIに対応しているブラウザが必要になります。 具体的にはGoogle ChromeやSafariなど

                  音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携
                • 1文字ずつ口パクでスペル入力できるシステム、東大などが技術開発 タイピング速度はスマホに匹敵

                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 東京大学、米ジョージア工科大学などによる研究チームが開発した「SilentSpeller: Towards mobile, hands-free, silent speech text entry using electropalatography」は、口パク(無声発話)で1文字ずつタイピングするハンズフリーの入力システムを提案する。 歩きながらでも入力が行える安定性を持ち、スマートフォンのQWERTY文字入力に匹敵するほどの十分なタイピング速度を兼ね備える。1文字ずつのスペル入力により、これまでの単語ベースで認識する無声発話入力よりも認識可能な語彙(ごい)が大幅に増加した。 音声入力だと

                    1文字ずつ口パクでスペル入力できるシステム、東大などが技術開発 タイピング速度はスマホに匹敵
                  • さようならCortana──Copilot登場でMicrosoftがサポート終了へ

                    米MicrosoftはサポートページでWindowsでのCortanaのサポート終了を告知した。「2023年後半以降、WindowsではスタンドアロンアプリとしてCortanaはサポートされなくなります」となっている。 2014年に「Windows Phone 8.1」の新機能としてデビューしたCortanaは、米Appleの「Siri」対抗の音声アシスタントと目されていた。その後、Windows 10のタスクバーで利用できるようになったが、Windows 11ではタスクバーから消えていた。 Microsoftが5月に開催したBuild 2023で発表した「Windows Copilot」は、Cortanaよりはるかに高機能なアシスタントなので、Cortanaの役目が終了になっても当然だろう。 MicrosoftはCortanaのWindowsでのサポート終了時期について具体的にはまだ発表

                      さようならCortana──Copilot登場でMicrosoftがサポート終了へ
                    • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

                      こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

                        OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
                      • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                        OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

                          OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                        • AWS、アレクサと同様の会話理解力を持つ「Amazon Lex」日本語対応を発表。日本語で会話する音声ボットやチャットボットが開発可能に

                          AWS、アレクサと同様の会話理解力を持つ「Amazon Lex」日本語対応を発表。日本語で会話する音声ボットやチャットボットが開発可能に Amazon Lexを利用することで、「すべてのデベロッパーがAmazon Alexaに採用されている深層学習技術と同じ技術を利用できる」(Amazon Lexの説明文から)とされています。 Amazon Lexは、自動音声認識による音声からテキストへの変換機能と、テキストの内容からその意図を認識する自然言語理解機能を備えています。 つまり、電話やオンライン会議などを経由して日本語の音声をAmazon Lexに入力すると、いわゆる文字起こしのようにその内容をテキストに変換してくれます。 そしてこの音声から変換されたテキストや、Slackなどのテキストチャットなどで入力されたテキストの内容から、Amazon Lexはその意図などを理解し、会話の中から必要な

                            AWS、アレクサと同様の会話理解力を持つ「Amazon Lex」日本語対応を発表。日本語で会話する音声ボットやチャットボットが開発可能に
                          • [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開

                            [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開 GitHubは、年次イベント「GitHub Universe 2022」の基調講演で、音声によるGitHubの操作やコーディングを可能にする実験的機能「Hey, GitHub!」をプレビュー公開しました。 'Hey, GitHub!' is an experiment from the GitHub Next team that aims to reduce the need for a keyboard by enabling voice-based interaction with GitHub Copilot. Sign up now to join the waitlist: https://t.co/4YOSuA6cUr — GitHub (@github

                              [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開
                            • 「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024

                              「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis

                                「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024
                              • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                                OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                                  音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                • TechCrunch | Startup and Technology News

                                  Now that Twitter’s API access is locked behind a tall paywall, long beloved third-party apps are shutting down. The latest to bite the dust is Block Party, an anti-harassment tool that helped pe Taxfix leaped to a $1 billion valuation in 2022 on the back of a popular mobile app used by consumers help with tax returns. But fast forward to 2023, and the Berlin-based accounting startup is taking

                                    TechCrunch | Startup and Technology News
                                  • TechCrunch

                                    Kyle Kuzma is a lot of things. He’s a forward for the Washington Wizards NBA team and a 2020 NBA champion. He’s also a style icon — depending on who you ask — and an angel investor. No

                                      TechCrunch
                                    • ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう

                                      家電量販店に行くと今でもボイスレコーダーのコーナーがあり人気だ。またスマートフォンにも必ずボイスメモアプリがある。筆者も一時期アイデアをボイスメモで録り溜めていた。しかし、ボイスメモは聞き直す必要があり管理が面倒という欠点もある。そこで、今回はPythonからMicrosoftのAPIを利用して自動的にボイスメモをテキストに変換する方法を紹介しよう。 WAVファイルを音声認識してテキストに変換したところ 音声認識APIを使ってみよう AI技術の進歩により音声認識の精度が向上している。これまでも音声認識の技術はあったものの精度が今一歩だった。そして個人ユーザーが気軽に活用できる感じではなかった。ところが、最近では、各社が競い合うように音声認識の精度向上に力を入れている。各社から発売されているAIスピーカーを積極的に活用している読者も多いことだろう。 そして、大きな点として、Microsoft

                                        ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう
                                      • Speech-to-Text Webcam Overlay

                                        *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

                                          Speech-to-Text Webcam Overlay
                                        • Googleが音声翻訳で話者の声を保ったまま翻訳させる画期的なシステム「Translatotron」を発表

                                          by rawpixel.com Googleが、人が話した内容を本人の声を保ったまま音声翻訳してくれる「Translatotron(トランスラトトロン)」について詳細を明かしました。従来モデルとは異なるエンドツーエンドモデルを採用した画期的なシステムとなっており、音声翻訳の未来を切り開くものと考えられています。 Google AI Blog: Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html これまでの音声翻訳では、まず話者が話した内容が自動音声認識により文章として起こされ、そこから機械翻訳を通して音声出力を行うという形が採られていました。

                                            Googleが音声翻訳で話者の声を保ったまま翻訳させる画期的なシステム「Translatotron」を発表
                                          • superwhisperでの音声入力を試す

                                            superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                              superwhisperでの音声入力を試す
                                            • 「Zoom」の文字起こし機能が無料アカウントでも利用可能に ~会議前の双方向チャット機能も/参加者が自由にスライドを制御できる設定も追加

                                                「Zoom」の文字起こし機能が無料アカウントでも利用可能に ~会議前の双方向チャット機能も/参加者が自由にスライドを制御できる設定も追加
                                              • ReazonSpeech - Reazon Human Interaction Lab

                                                ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                                                • しゃべった内容、リアルタイムで字幕化して映像に合成 ビデオ会議が便利になるシステムに注目集まる

                                                  ビデオ会議やネット発表会が増える中、話した内容をリアルタイムで字幕化してWebカメラ映像に合成するシステムを開発する人が現れて注目を集めています。 開発したのは筑波大学大学院修士課程の鈴木一平(@1heisuzuki)さん。カメラとマイクをオンにしてGoogle ChromeからWebサイトにアクセスすると、話したことをリアルタイムで音声認識してWebカメラの映像に字幕として表示します。 話した内容がリアルタイムで字幕に カメラ表示やグリーンバック表示のありなしなども設定可能(サイトは随時アップデートしているとのこと) ブラウザの画面をキャプチャーしたり共有したりしてビデオ会議ツールに表示すると、字幕付きで会議に参加することが可能。音声認識結果のログをダウンロードすることもできます。ソースコードはGitHubで公開されています。 鈴木さんが公開したデモ映像では、話している内容がかなりの速さ

                                                    しゃべった内容、リアルタイムで字幕化して映像に合成 ビデオ会議が便利になるシステムに注目集まる
                                                  • 「原稿の校正をAIに任せたい! しかも無料で」――急遽テレワークを導入した中小企業の顛末記(39) CMSを使わずに原稿をクラウド管理、しかも自動校正付き!【急遽テレワーク導入!の顛末記】

                                                      「原稿の校正をAIに任せたい! しかも無料で」――急遽テレワークを導入した中小企業の顛末記(39) CMSを使わずに原稿をクラウド管理、しかも自動校正付き!【急遽テレワーク導入!の顛末記】
                                                    • Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた

                                                      2021年3月3日にリリースされたデスクトップ版Google Chrome 89の安定版で、ブラウザ上で再生される音声やムービーからリアルタイムで字幕を生成する「自動字幕起こし」機能が追加されたことが明らかになったので、実際にどんな感じなのか使ってみました。 Google's Live Caption feature rolling out for Chrome desktop users https://www.xda-developers.com/google-chrome-live-caption-feature-rolls-out-transcribe-speech-videos/ Google's Live Caption is now rolling out to Chrome on desktop | Android Central https://www.androidce

                                                        Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた
                                                      • OSSなWeb会議アプリ(SkyWay Conf)に文字起こし機能を実装してみた - Qiita

                                                        SkyWay ConferenceはSkyWayを利用したのブラウザ上で動作するWeb会議デモアプリです。OSSとして公開されています。 今回はSkyWay Confを改造して文字起こし機能をつけてみました! Web会議アプリに文字起こし機能がついてると、出先でイヤホンを忘れてもなんとかなるかもしれません。 議事録も自動で出来て素晴らしいですね。 左上の窓で文字起こし関連の操作が出来て、画面中央下部に書き起こされた文字が表示されるようにしました。 できたもの まずデモアプリはこちら。Chromeで開いてください! 文字起こし機能つきSkyWay Confのデモページ https://shinyoshiaki.github.io/skyway-conf ソースコードなど 文字起こし機能つきSkyWay Confのソースコード https://github.com/shinyoshiaki/s

                                                          OSSなWeb会議アプリ(SkyWay Conf)に文字起こし機能を実装してみた - Qiita
                                                        • Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように

                                                          Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように2020.01.08 07:0036,736 Victoria Song - Gizmodo US [原文] ( 塚本直樹 ) Tags : テクノロジー企業グーグルスマートフォンAndroid iPhone…はまだか。 Pixel 4とともにGoogle(グーグル)から発表された、新たな「Recorder」アプリの書き起こし機能。オフラインモードでもガリガリスピーチを文字化できる超便利なこの機能は現在Pixel 4/3/2にて利用できるわけですが、とうとう非公式ながら他のAndroidスマートフォンでも使えるようになりました! XDA-Developersに投稿された改造版のRecorderアプリでは、Pixelシリーズと同じく、リアルタイム/オフラインでのスピーチ書き起こしが可能です。動作にはAndroid 9/10

                                                            Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように
                                                          • 話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった

                                                            インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。 筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI(人工知能)によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI(オープンAI)の音声認識AI「Whisper」だ。 同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言

                                                              話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった
                                                            • 内容をメモる必要なし! 電話の内容を録音&文字起こしするAIアプリ「コネクト」

                                                              内容をメモる必要なし! 電話の内容を録音&文字起こしするAIアプリ「コネクト」2021.05.10 10:0026,541 岡本玄介 後になって「アレ何だっけ?」がなくなりそう。 電話で喋ったやり取りが、テキスト・メッセージのような文字の吹き出しで表示され、その音声も録音されるので後から内容を確認しやすい、AI通話アプリ「コネクト」が開発されました。 作ったのは、ソフト開発を行なう株式会社アトラスコネクト。これがあれば、上司や取引先と話した内容など、大事な情報を失念することがなくなります。 Video: Jay Jang/YouTubeタグ付けもできて管理がラクテキストはAIによりリアルタイムで文字起こしされ、終了後すぐに見返すことができます。そして通話データはタグも付けられ、後から検索や管理ができるというスグレモノ。「電話業務が難しい理由は通話内容が記録されないから」…という原因をこれで

                                                                内容をメモる必要なし! 電話の内容を録音&文字起こしするAIアプリ「コネクト」
                                                              • 「クリリンのことかーっ!」は怒り36%、嫌悪21%──声から感情を検出するAI、ユーザーローカルが無償公開

                                                                ユーザーローカルは11月19日、AIが人間の声を分析し、その中に含まれる感情を7種類に分類するサービスを無償公開した。同社が実験でアニメのせりふを分析したところ、「ドラゴンボール」に登場する孫悟空の「クリリンのことかーっ!」は怒りが36.8%、嫌悪が21.3%だったという。 感情の度合いを数値化したり、グラフ化したりできる。まずはPCブラウザ(Google Chrome、Firefox、Microsoft Edge)向けの専用サイトで提供し、今後はWeb APIのリリースも検討する。 検出できる感情は「平穏」「幸福」「怒り」「悲しみ」「恐怖」「嫌悪」「驚き」。利用者が専用サイトで声を録音するか、オーディオファイル(MP3・WAV)をアップロードすると、AIが音声を分析。これらの7種類に分類し、その度合いを数値化する。 アニメのせりふを使った他の実験では、「鬼滅の刃」に登場する我妻善逸の「雷

                                                                  「クリリンのことかーっ!」は怒り36%、嫌悪21%──声から感情を検出するAI、ユーザーローカルが無償公開
                                                                • Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita

                                                                  こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S

                                                                    Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita
                                                                  • 今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな

                                                                    今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな2021.06.25 01:5433,510 三浦一紀 オンライン発表会って難しいよね。 Windows 11の発表会、内容的には結構ワクワクするものでしたが、いくつか気になるところがありましたね。 まず、メディア向けのサイトやイベント公式サイトでの配信が止まりまくっていました。結局Twitterでの配信を見て原稿書いていました。あとでアーカイブが見られるとはいえ、やっぱりリアルタイムで見たいじゃないですか。何が原因なのかはわかりませんけどね。 Image: Microsoftあとは、字幕。メディア向けサイトでは、英語以外にも日本語やフランス語など各国に対応していたのですが、どうやら自動翻訳を使っていたようで、日本語字幕を見ていてもあまり意味がわからないところがありました。自動翻訳の聞き取り精度も

                                                                      今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな
                                                                    • スマスピやiPhoneのマイクをレーザー光線で操作する攻撃、電通大教授らが警告

                                                                      スマートスピーカーやスマートフォンなどのデバイスに搭載されているMEMSマイクにレーザー光線を当てることで、AIアシスタントを操作できることを、電気通信大学の菅原健准教授らの研究者が11月4日に公開した論文で紹介し、専用サイトも公開した。 研究者らはこの仕組みを「Light Commands」と名付けた。光を使って遠距離から音声制御システムにコマンドを送る攻撃だ。攻撃者は音声信号を光に変調してマイクに向けて照射し、マイクは受信した光を音声信号に変換してアシスタントに伝える。実験では、透明なガラス窓越しに、最大110メートル離れた位置からコマンド入力に成功した。 実験でコマンド入力に成功したのは、Appleの「Siri」、Googleの「Googleアシスタント」、Amazon.comの「Alexa」、Facebookの「Portal」を搭載するさまざまな製品。 例えば、スマートホームを制御

                                                                        スマスピやiPhoneのマイクをレーザー光線で操作する攻撃、電通大教授らが警告
                                                                      • 無料で自動文字起こししてくれるMicrosoft製アプリ「Group Transcribe」を使ってみた

                                                                        Microsoftが、誰が何を話したのかリアルタイムで文字化して記録してくれる、無料の文字起こしアプリ「Group Transcribe」を公開していたので、実際に使ってみました。 「Group Transcribe」をApp Storeで https://apps.apple.com/jp/app/group-transcribe/id1527145885 iOS端末でApp Storeにアクセスして「Group Transcribe」を入手します。 インストールするとアプリの説明画面が4枚表示されます。「次へ」をタップするか、右へスワイプして進めていきます。 最後の説明画面で「始めましょう。」をタップ。 利用規約が表示されるので「承認」をタップ。 表示名と言語を入力します。 言語はプルダウン式メニューになっていて、かなり多数の言語が用意されています。ここで設定された言語をベースに文字起

                                                                          無料で自動文字起こししてくれるMicrosoft製アプリ「Group Transcribe」を使ってみた
                                                                        • Raspberry Piでインターホンの音を検知してLINEに通知する (1)インターホンの音を録音する - Qiita

                                                                          住居に必ず備わっているインターホン。 ・聞こえづらい部屋がある ・イヤホンをしていると聞こえない ・外出中の来客を把握したい という課題・要望に対応すべく、Raspberry Piを使ってLINEに通知するシステムを作りました。 LINEであれば、スマホがブーブブッと振動して気づきやすいですよね。 少し調べたところ、インターホンのLEDや画面の点灯で検出するものが多かったですが、 自分のアパートのインターホンだと難しそうだったので、音で検知するようにしました。 FFTを使って、インターホンに対応する周波数(音の高さ)を検出します。 いろんなサイトから組み合わせる形になったので、まとめます。 今回は、Raspberry Piを使ってインターホンの音を録音するところまで。 このデータを使って、音の検知基準を作成します。 ※準備では.wavファイルに保存していますが、運用時には保存せずに処理しま

                                                                            Raspberry Piでインターホンの音を検知してLINEに通知する (1)インターホンの音を録音する - Qiita
                                                                          • GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

                                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                              GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
                                                                            • Google Cloud Speech API vs. Amazon Transcribe - Qiita

                                                                              文字起こしAPIガチンコバトル ググってざっと見れた範囲の「文字起こしAPI比較してみた」系記事では、数行(もしくは数分)レベルの非常に短い文字起こしを行いgood/badを述べているものが多いです。もしくはニュース動画のような"クリアすぎる音源"に対して行っているものも多いです。Amazon Transcribeについてバズっていたブログでも、英語での文字起こしで精度が高い話をしています。自然言語処理分野では英語の精度が高いのは知られているところですが日本語だとどうかというところが気になるところです。 自分が知りたいのは、 - 日本語の音源 - Podcastのように素人収録されたある程度ノイズが含まれた音源 - 1hくらいの長尺音源 - 複数人がクロストークしている音源 というような特徴を持った音声データに対してAPIだけでどこまで戦えるか(文字起こしできるか)だったので、いろいろ検証

                                                                                Google Cloud Speech API vs. Amazon Transcribe - Qiita
                                                                              • 自動文字起こしや自動音声読み上げモデルをオープンソースで開発する「Coqui」メンバーは元Mozillaエンジニア

                                                                                収録した音声をそのままテキストに自動で文字起こしするSpeech to Text(STT、音声テキスト変換)モデルや、入力したテキストを自動音声で読み上げるText to Speech(TTS、テキスト音声変換)モデルをオープンソースで開発する企業が「Coqui」です。 Coqui https://coqui.ai/ Coquiの創設者たちはもともとFirefoxやThunderbirdの開発で知られるMozillaに在籍していました。創設者たちは音声技術が大企業によって独占され、オープンソースで提供されなくなるかもしれないと考え、独立して企業を立ち上げ、オープンソースの音声認識エンジンを構築したとのこと。 CoquiのSTTモデル「Coqui STT」のリポジトリはGitHubにホストされています。Coqui SSTの特徴は、あらかじめ音声ライブラリが用意されているのではなく、あらかじめ

                                                                                  自動文字起こしや自動音声読み上げモデルをオープンソースで開発する「Coqui」メンバーは元Mozillaエンジニア
                                                                                • ボイチェンだけじゃない! 「Voidol2」のアナライザが優れものだった【藤本健のDigital Audio Laboratory】

                                                                                    ボイチェンだけじゃない! 「Voidol2」のアナライザが優れものだった【藤本健のDigital Audio Laboratory】