並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 273件

新着順 人気順

音声認識の検索結果161 - 200 件 / 273件

  • HuggingSoundによる音声認識モデルのfine-tuning | 株式会社AI Shift

    こんにちは AIチームの戸田です 今回は最近リリースされたHuggingFaceをベースにした音声処理用のツール、HuggingSoundを使って音声認識を試してみます。 HuggingSoundはHuggingFaceが公式に出しているものではなく、リオデジャネイロ大学のJonatas Grosman氏が個人的に開発しているライブラリで、今年に入ってリリースされたばかりの新しいライブラリです。 日本語の音声認識モデルはGrosman氏がこのライブラリを使ってCommon Voice、 CSS10、 JSUTをfine-tuningしたものを公開してくれていますが、本記事ではイチからfine-tuningを試してみたいと思います データ準備 学習に使用するデータは声庭で公開されているデータを利用します。声庭は有志でアノテーションを行っている公開音声データで、利用・修正・再配布が自由なオープ

      HuggingSoundによる音声認識モデルのfine-tuning | 株式会社AI Shift
    • iOS 14で追加された音声認識機能(Sound Recognition)がちょっと怖いらしい 「絶対オンにしないな」「不気味すぎるよ」|ガジェット通信 GetNews

      iOS 14 comes with support for Sound Recognition in Accessibility. Your phone can now listen for specific sounds – a baby crying, smoke alarm, water running, etc. – and notify you. Amazing feature for all kinds of users – inclusivity at its best. #WWDC2020 pic.twitter.com/3hIL8JuTyB— Federico Viticci (@viticci) June 23, 2020

        iOS 14で追加された音声認識機能(Sound Recognition)がちょっと怖いらしい 「絶対オンにしないな」「不気味すぎるよ」|ガジェット通信 GetNews
      • HuggingFaceのwav2vecで音声認識をしてみる

        Wav2Vec 下記の論文で紹介された手法になります。 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations https://arxiv.org/pdf/2006.11477.pdf 大きな特徴は事前学習とファインチューニングのフェーズに分かれており、事前学習ではラベルデータが必要ない。つまり音声データのみでOKという手法になります。 ラベルコストをさげて学習できる手法ということで有用な手法になります。 下記はモデルの図です。 ラベルなしの事前学習部分が重要なので、その部分にフォーカスして説明します。 音声データを前処理せずにCNNに入力して、音声データを圧縮して量子化しています。 量子化のモジュールではゆらぎを与えるためにギャンブルソフトマックスを採用して、固定的な値を出力しないよう

          HuggingFaceのwav2vecで音声認識をしてみる
        • 口パクの顎の動きで音声認識 イヤフォンに後付け可能

          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米ニューヨーク州立大学ストーニーブルック校、インド工科大学ガンディーナガル校、米カリフォルニア・マーセッド大学、米テキサス大学アーリントン校による研究チームが開発した「JawSense」は、顎(あご)の動きで音声認識する音声コマンド・ウェアラブルデバイスだ。 このデバイスは耳に装着し、音声認識をハンズフリーで行う。ヘッドフォンやイヤフォンへの後付けも可能だ。 音声入力は、公共の場で使用する場合、機密情報漏えいやプライバシーの侵害の恐れがある。また、ノイズの多い環境では安定して使用できない。研究チームは、これら課題を解決するため、発話時に確実に動作する顎に着目した。 今回の研究は、顎を動かす

            口パクの顎の動きで音声認識 イヤフォンに後付け可能
          • ペイントソフト用音声認識アシスタント 『アイリス』

            話しかけるだけ様々なアプリケーションのキー入力を素早く実行します。 好きな言葉を無制限に登録できる プロのためのVUIアプリ マイクがあればすぐに使い始めることが出来ます。

              ペイントソフト用音声認識アシスタント 『アイリス』
            • 通話内容をAIが要約して記録 葬儀社の問合わせ応対に「音声認識できるくん」を導入 ライフアンドデザイン・グループ - ロボスタ ロボスタ - ロボット情報WEBマガジン

              ライフアンドデザイン・グループは、自社の知見を活用し、Hmcomm(エイチエムコム)が提供する音声認識システム「VContact」を、コールセンターやオペレーター業務向けの業界に特化したサービス「音声認識できるくん」として開発・導入することを発表した。 同社は、コンタクトセンターにおける業務工数削減による人員/業務の最適化を目指し、将来的には業界全体の業務効率化を促進するため、グループ外企業への販売・ライセンシング等も予定している。 なお、Hmcommは産総研発のベンチャー企業として、産総研独自の音声処理技術を用いた要素技術の研究・開発、ソリューション・サービスを提供している。 葬儀依頼後の事務処理の負荷が大きい 葬儀の依頼は電話での受付が主流となっている。そして葬儀業界は近年、高齢化社会に伴い、2018年の葬儀取扱件数は約44万件(経済産業省2018年データ)にのぼり、年々増加傾向にある

                通話内容をAIが要約して記録 葬儀社の問合わせ応対に「音声認識できるくん」を導入 ライフアンドデザイン・グループ - ロボスタ ロボスタ - ロボット情報WEBマガジン
              • AI音声認識技術も超高性能に。AI ボイスレコーダー、AutoMemo Sが有能で超便利|DTMステーション

                A.I.VOICEやvoicepeak、CeVIO AI、VOICEVOX……などなど音声合成技術がどんどん進化し、人間が喋っているのか、機械が喋っているのか、判断が難しいレベルになってきていますが、今回のテーマは喋るほうのではなく、言葉を聴き、理解するほうの技術について。いわゆる音声認識技術ですが、こちらもAIを使う形になり、ここ数年で飛躍的に進化してきています。実際、そのAI音声認識を用いた製品もいくつか登場してきているようですが、その中でも今、非常に注目を集めているのがソースネクストが販売しているAutoMemo SというAIボイスレコーダーです。 見た目はコンパクトなICレコーダーであり、ボタンを押せば録音がスタートし、再度ボタンを押すとストップするというシンプルな構造ではありますが、単純に録音するだけでなく、録音中の会話がすべてテキストに自動で変換されるのです。そのAutoMem

                  AI音声認識技術も超高性能に。AI ボイスレコーダー、AutoMemo Sが有能で超便利|DTMステーション
                • 最新の音声認識モデル『Whisper』を使ってみたよ

                  昨日は、あひるさんの知らない技術まみれのチームに移動した時に実践したことでした。 畑の違う技術や分野に挑戦するときはすごい体力がいりますが、そこに果敢に挑戦して成果を出し続けている姿に日々刺激をもらっています..! 改まして、こんにちは! @koonagiです。 普段はインフラエンジニア兼データエンジニアとしてTerraformを書いたり、CI/CD作ったり、ETL処理書いたりしています。 普段とは違うことをしてみようと音声認識モデル『Whisper』をつかってみたので、そのことについて書いてみようと思います。 Whisperとは Whisperってなんなのよというところからですが、最近流行っているChatGPTやGPT-3を開発しているOpenAIが開発している音声認識モデルです。 モデルで利用しているトレーニングデータはウェブで収集したデータでなんと68万時間分のデータとなっております

                    最新の音声認識モデル『Whisper』を使ってみたよ
                  • Web会議のリアルタイム文字起こしが無料or低価格でできるサービス3選 - 音声認識ラボ by 東京反訳

                    テレワークの導入によりZoomやSkype、Microsoft TeamsといったWeb会議ツールを使った会議や取材なども今は当たり前になってきているが、その際に発言内容をリアルタイムで文字化できると、会話ログの作成や議事録作成のスピードアップや省力化を図れるなど、もっと生産性を向上させることが可能だ。 前回は個人の方が開発されたWeb会議での発話をリアルタイムで文字に書き起こせる便利ツールを取り上げたが、今回はサービスとして提供されているもので 現在無料あるいは低価格で簡単に利用できる Zoom、Skype、Google Meet、Microsoft Teams等(以下、各種Web会議ツール)で利用できる リアルタイムで文字起こしができる という3点を満たすサービスの中から、3つを選んで紹介する。 ※本内容は、2020年7月13日現在の情報です。 → 情報を更新しました。本内容は、更新日

                      Web会議のリアルタイム文字起こしが無料or低価格でできるサービス3選 - 音声認識ラボ by 東京反訳
                    • 音声認識を使って起こしたテキストなどを整形/分析/活用したい、そんなときに役立ちそうな無料で使えるツール - 音声認識ラボ by 東京反訳

                      文章に読点を自動で挿入してくれるツール。操作はとても簡単で、テキストエリアに処理したいテキストを入力し、「予測」ボタンを押すだけだ。 使い道の例を挙げると、句読点と改行の自動挿入に対応していない音声認識サービスやアプリ等を使って音声の自動文字起こしを行った場合、認識結果のテキストは句読点や改行が一つもない全文がつながった文章になってしまう。 句読点や改行が全くない文章は、内容は高精度で起こせていても非常に読みづらいものだが、そのときはこのツールを使って読点を挿入すると、ぐっと読みやすくなるのでおすすめだ。 なお、句点と改行については、除去するツールはあるのだが、自動で挿入してくれるツールは今のところ見つけられていない。

                        音声認識を使って起こしたテキストなどを整形/分析/活用したい、そんなときに役立ちそうな無料で使えるツール - 音声認識ラボ by 東京反訳
                      • GPUがなくても高速に音声認識ができるwhisper.cppを試してみる - kun432's blog

                        ちょっと前に、かんたんに高精度な音声認識ができるWhisperが話題でしたが、そもそもそんな高性能GPUうちにはなく、盛大に出遅れていたのですが、 GPU不要・CPUでも「高速」に動作するWhisper CPPがあるということで、手元の環境で試してみました。 目次 目次 参考 環境 音声データについて 手順 まとめ 参考 以下の記事を参考、というかもうほぼ「写経」させていただいただけです。ありがとうございます。 環境 そろそろ買い替えてもなーと思いつつ、普段全然困ってないので買い換えるモチベーションもフトコロもあまりないです。購入時に奮発してほぼフルスペにしたので、今の感じからするとあと2年ぐらいは使えそうだなと思ってます。 MacBookPro (15-inch, 2016) CPU: 2.9GHz クアッドコア Intel Core i7 メモリ: 16GB グラフィック: Radeo

                          GPUがなくても高速に音声認識ができるwhisper.cppを試してみる - kun432's blog
                        • ggml.ai、GPUなしでチャットAIを動作させるライブラリ「GGML」開発中 Raspberry Pi上で音声認識モデルを実行可能

                          ggml.aiは2023年6月現在、GPUなしでチャットAIを動作させる機械学習用のtensorライブラリ「GGML」を開発中と発表した。 GGMLの特徴は以下の通り。 Cで書かれている 16ビット浮動小数点をサポート 整数量子化をサポート(例:4bit、5bit、8bit) 自動微分 組み込みの最適化アルゴリズム「ADAM」「L-BFGS」などを搭載 Appleシリコン用に最適化 x86アーキテクチャではAVX/AVX2組み込み関数を利用 WebAssemblyおよびWASM SIMDによるWebサポート サードパーティへの依存関係なし 実行時にメモリ割り当てなし ガイド付き言語出力のサポート 関連記事 OpenAI、LLMの「GPT-4」および「GPT-3.5」ファミリーの最新モデルをリリース 関数呼び出しなど可能に OpenAIは、大規模言語モデル(LLM)の「GPT-4」および「G

                            ggml.ai、GPUなしでチャットAIを動作させるライブラリ「GGML」開発中 Raspberry Pi上で音声認識モデルを実行可能
                          • 音声認識で自動文字起こしできる「Googleドキュメント」の使い方 - Hashikake [ハシカケ]

                            音声認識で自動文字起こしできる「Googleドキュメント」の使い方スマートフォンを利用して会話をそのままテキスト化!上手く活用できれば、会議やミーティングでメモをとることではなく、相手の話を聞くことに集中ができるようになります。議事録作成にも役立つかもしれません。必要なものは「Googleドキュメント」と「スマートフォン」の2つ。スマートフォンの音声入力で取り込んだデータを、リアルタイムで編集して議事録作成にも利用できる方法を紹介します。

                              音声認識で自動文字起こしできる「Googleドキュメント」の使い方 - Hashikake [ハシカケ]
                            • 茨城県庁、音声認識で議事録を自動作成するクラウドサービス「ProVoXT」を全庁で導入 | IT Leaders

                              IT Leaders トップ > テクノロジー一覧 > AI > 事例ニュース > 茨城県庁、音声認識で議事録を自動作成するクラウドサービス「ProVoXT」を全庁で導入 AI AI記事一覧へ [事例ニュース] 茨城県庁、音声認識で議事録を自動作成するクラウドサービス「ProVoXT」を全庁で導入 2019年6月5日(水)日川 佳三(IT Leaders編集部) リスト 茨城県庁は、会議の録音音声をクラウドにアップロードするだけで議事録を自動で作成できるサービス「ProVoXT(プロボクスト)」を導入した。全庁で運用を開始している。議事録作成の作業時間を大幅に短縮したとしている。ProVoXTを提供しているアドバンスト・メディアが2019年6月5日に発表した。 茨城県庁の全庁で、クラウド型の議事録作成サービス(ProVoXT)を導入した。導入効果として、議事録作成の時間と人的負担を大幅に削

                                茨城県庁、音声認識で議事録を自動作成するクラウドサービス「ProVoXT」を全庁で導入 | IT Leaders
                              • 音声認識技術を障害者にも AI活用したグーグルの取り組み | Forbes JAPAN 公式サイト(フォーブス ジャパン)

                                予定をスケジュール表に組み込みたい時は、スマホに頼めばよい。寝室の電灯をつけたい時は、グーグルホームが代わりにやってくれる──。このように日常的なタスクを自動化・効率化する音声認識・作動システムは、消費者の間で人気を集めており、その市場規模は490億ドル(約5兆3000億円)にまで達している。ただ、発話障害のある人々にとって、音声での指示に頼るテクノロジーはまだ完璧には程遠い。 グーグルはこの状況を変えるべく、「プロジェクト・ユーフォニア(Project Euphonia)」を立ち上げた。同社のプログラム「社会貢献のための人工知能(AI for Social Good)」の一環である同プロジェクトは、耳の不自由な人や、筋萎縮性側索硬化症(ALS)や脳卒中、パーキンソン病、多発性硬化症、外傷性脳損傷などの神経疾患のある人が利用する音声認識を向上させる方法を模索するものだ。 グーグルは非営利団

                                  音声認識技術を障害者にも AI活用したグーグルの取り組み | Forbes JAPAN 公式サイト(フォーブス ジャパン)
                                • 音声認識搭載モノポリー、米国で発売へ | スラド idle

                                  音声認識機能を搭載したモノポリー「Monopoly Voice Banking」が6月29日に米国で発売される(モノポリー公式アカウントのFacebook記事、 ウォルマートの製品情報ページ、 SlashGearの記事)。 名前の通り音声認識機能は資金管理で使われ、ユーザーはボタンを押してから取引内容を口頭で伝えるだけで銀行家のミスターモノポリーがすべて処理してくれる。残高もボイスコマンドで確認できるため、紙幣や銀行カードの小道具を使う必要がない。8歳以上を対象にしており、2人~4人でプレイ可能だという。 ハズブロの公式サイトに情報は出ていないが、モノポリーの公式アカウントが19日にFacebookで発表した。現在、ウォルマートがWebサイトで事前予約を受け付けており、価格は29ドル92セントとのことだ。

                                  • LINE、無料AI音声認識アプリ「CLOVA Note β」の提供を開始

                                    LINEは、「LINE CLOVA」より、無料のAI音声認識アプリ「CLOVA Note(クローバ・ノート)」のβ版の提供を開始しました。 このAIニュースのポイント LINEは、無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を開始 「CLOVA Note」は、音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリ 録音時の話者分離が可能なため、会議の議事録作成にも活用 LINE株式会社は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を5月24日より開始しました。 「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリを

                                      LINE、無料AI音声認識アプリ「CLOVA Note β」の提供を開始
                                    • ユーザーの意図を汲む音声認識の高速化手法 〜 音声認識と自然言語処理の同時実現

                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、ヤフー独自の音声認識エンジン「YJVOICE」の研究開発を担当している大町です。 今回は前回のブログで紹介した音声認識手法の実行時間を削減するための枠組みをご紹介します。この手法は、信号処理分野のトップカンファレンスICASSP2022(2022 IEEE International Conference on Acoustics, Speech and Signal Processing)で発表しました。 ユーザーの意図を汲める音声認識とは(前回のブログのおさらい) 今回のお話に入る前に、前回のブログで紹介した音声認識の手法を復習したいと思います。 音声認識の研究分野では、ユーザーが話した声から発話内容の文字列を一つ

                                        ユーザーの意図を汲む音声認識の高速化手法 〜 音声認識と自然言語処理の同時実現
                                      • 音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた | DevelopersIO

                                        音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた はじめに 2024年2月14日に、ReazonSpeechの最新バージョン v2.0が公開されたため、ReazonSpeech音声認識モデルを利用してみました。 ReazonSpeechは、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群で、それぞれ以下のような特徴があります。(引用)いずれも無償で公開されています。 ReazonSpeech音声認識モデル: OpenAI Whisper に匹敵する高精度な日本語音声認識モデル。商用利用可 ReazonSpeechコーパス作成ツール: TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。商用利用可 ReazonSpeech音声コーパス: 高品質な日本語音声認識モデル学習用

                                          音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた | DevelopersIO
                                        • Googleの文字起こしアプリが日本語対応に! Pixel 6の音声認識新機能がすごいんだって… #Pixel6Launch

                                          Googleの文字起こしアプリが日本語対応に! Pixel 6の音声認識力がすごいんだって… #Pixel6Launch2021.10.20 02:0033,329 嘉島唯 Googleさんありがとうございます……。 Googleから新しく発表されたPixel 6、Pixel 6 Proは、Google初のSoCであるTensorが載っています。これによって処理機能が大幅に向上。いろんなことができるようになりました。GoogleいわくTensorによって「もっとも高度な音声認識を実現」しているといいます。 なかでも最高なのがレコーダーアプリ。録音しながら自動的に文字起こしまでしてくれます。今まで英語のみで使える機能でしたが、Pixel 6からは日本語、フランス語、ドイツ語が対応しました。最高!!!! Image : Google文字起こしの方法は本当に簡単。デフォルトで入っているレコーダー

                                            Googleの文字起こしアプリが日本語対応に! Pixel 6の音声認識新機能がすごいんだって… #Pixel6Launch
                                          • 生成AI特許出願、最多はGoogle 音声認識や合成に力 - 日本経済新聞

                                            画像や文章をつくる生成AI(人工知能)について主要企業による特許出願を専門家の協力で分析した。出願数で米グーグルと米マイクロソフト(MS)が競い、米IBMが続いた。各社の注目特許からは文章の生成に続く潮流として、音声の認識や合成の技術に注力する姿勢がうかがえる。知的財産の分析を手がける知財ランドスケープ(東京・中央)の協力を得て分析した。米オープンAIの「Chat(チャット)GPT」など生成A

                                              生成AI特許出願、最多はGoogle 音声認識や合成に力 - 日本経済新聞
                                            • 京都大学、人工知能でアイヌ語の音声認識・合成に成功

                                              京都大学大学院情報学研究科の河原達也教授らの研究グループは、消滅危機言語に認定されているアイヌ語の音声を自動認識し、合成する人工知能(AI)を開発した。アイヌ語の音声認識・合成システム構築は初めてで、アイヌ語の伝承や学習に効果を上げそうだ。 これにより、1時間のデータに対し、人の手で1日かかる作業がほぼ完全に自動化でき、アイヌ語のアーカイブ構築が大きく効率化することになった。 さらに、提供された音声データのうち、1人当たりで10時間以上会話している人について、AIの深層学習で音声を合成した。9月に白老町で開かれたアイヌ語アーカイブ研究会で実演したところ、博物館関係者から好評を得た。 アイヌ語は北海道や樺太、千島列島などに居住していたアイヌの言語で、口承だけで伝えられてきた。科学的な研究は明治時代以降にスタートしたが、樺太や千島列島では話者がすでに消滅したとされる。北海道の話者数は1996年

                                                京都大学、人工知能でアイヌ語の音声認識・合成に成功
                                              • iOS/iPadOS 13では機械学習を利用したSiriの音声認識エンジンとアクセシビリティの音声コントロールにより、iPhoneやiPadのほぼ全ての操作を音声だけで行うことが可能に。

                                                iOS/iPadOS 13では機械学習を利用したSiriの音声認識エンジンとアクセシビリティの音声コントロールにより、iPhoneやiPadのほぼ全ての操作を音声だけで行うことが可能になっています。詳細は以下から。 iOS 13/iPadOS 13がリリースされて以来、AppleのiWorkやAgilebitsの1Password、Shiny FrogのBearなど多くのアプリがアクセシビリティアップデートを提供していますが、これはiOS 13やiPadOS 13(macOS 10.15 Catalinaでも)でアップデートしたアクセシビリティの「音声コントロール」に対応するためで、 現在この機能は米国の英語に最適化されていますが、WWDC 2019でもIan Mackayさんが披露されたとおり、iOS 13/iPadOS 13のボイスコントロールは音声だけでiPhoneやiPadのほぼ全

                                                  iOS/iPadOS 13では機械学習を利用したSiriの音声認識エンジンとアクセシビリティの音声コントロールにより、iPhoneやiPadのほぼ全ての操作を音声だけで行うことが可能に。
                                                • Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog

                                                  面白プロデュース事業部 フロントエンジニアのゆうもやです。 面白法人カヤックでは、毎月社員が個人で制作したものを発表する「つくっていいとも」という会があります。 カヤックの社員は、業務に関係なく自由に制作・試作することで常に新しいアイデアを生み出すことに取り組んでいます。 今回は、そんなアイデアのネタになりそうなWeb SpeechRecognition APIのご紹介です。 Web SpeechRecognition API とは? Web SpeechRecognition APIは、ブラウザで音声認識を行うためのAPIです。ブラウザに標準で実装されているため、サーバーや特別なライブラリをインストールする必要なく、JavaScriptだけで利用することができます。 対応状況 一部非対応のブラウザはあるものの、ChromeとSafari 14.1以降ではPCとモバイル両対応しているため、

                                                    Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog
                                                  • Facebookが多言語音声認識ディープラーニングモデルをオープンソース化

                                                    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

                                                      Facebookが多言語音声認識ディープラーニングモデルをオープンソース化
                                                    • rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開

                                                        rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開 
                                                      • 開発実績25年・日本シェアNo1の音声認識サービス「AmiVoice」の実力はどれほどなのか?実際に使ってみた&GIGAZINE読者専用無料期間10倍クーポンあり

                                                        会議や電話の音声を文字起こししたり、音声認識で機械を操作したり、音声入力でレポートを作成したりとさまざまな場面で「音声認識サービス」が必要とされています。そうした需要に応えて世の中には多数の音声認識サービスが登場していますが、そのうちの一つ「AmiVoice」は「えー」「えっと」などの言いよどみを自動削除してくれたり、単語登録で固有名詞も楽々対応だったり、医療や金融などの専門分野に強い特化型エンジンが用意されていたりする日本シェアNo1の音声認識サービスとのことなので、実際に使って確かめてみました。 AI音声認識のAPI・SDKなら-AmiVoice Cloud Platform(アミボイス) https://acp.amivoice.com/ AmiVoice API-開発者向け音声認識エンジン(アミボイス) https://acp.amivoice.com/amivoice_api/

                                                          開発実績25年・日本シェアNo1の音声認識サービス「AmiVoice」の実力はどれほどなのか?実際に使ってみた&GIGAZINE読者専用無料期間10倍クーポンあり
                                                        • 畳み込みニューラルネットワークとは? 「画像・音声認識」の核となる技術のカラクリ

                                                          畳み込みニューラルネットワークとは 畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)というのは、人間の視覚神経を参考にしたアルゴリズムである「ネオコグニトロン」というアルゴリズムを多層ニューラルネットワークに応用したアルゴリズムです。 そもそも、ニューラルネットワーク自体が人間の神経ネットワークを参考につくられたものですが、その中でも「視覚」にフォーカスしたものが、畳み込みニューラルネットワークということになります。「ディープラーニングが画像認識タスクに強い」というのは、主に畳み込みニューラルネットワークの話です。細かく言えば、画像認識が苦手なディープラーニングもあるということです。 また、畳み込みニューラルネットワークは音声認識にも有効です。現在、広く普及しているディープラーニングの用途の多くが「画像認識」や「音声認識」であることを踏ま

                                                            畳み込みニューラルネットワークとは? 「画像・音声認識」の核となる技術のカラクリ
                                                          • インターン生がストリーミングEnd-to-End音声認識のレスポンス高速化に取り組んだ話

                                                            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。インターン生の齋藤主裕です。 この記事では私がヤフーの音声認識チームで2週間のインターンシップを行った際に取り組んだ内容について紹介します。インターンシップでは主にストリーミングEnd-to-End音声認識のレスポンスを高速化する技術のうち、国際学会で最近発表された技術の追試を行いました。以下ではその技術の概要と得られた結果、およびインターンシップの感想について書きます。 ストリーミングEnd-to-End音声認識とは ニューラルネットワークを使って音声情報から直接発話文字列を出力する手法をEnd-to-End音声認識といいます。End-to-End音声認識は従来手法(ニューラルネットワークと隠れマルコフモデルのハイブ

                                                              インターン生がストリーミングEnd-to-End音声認識のレスポンス高速化に取り組んだ話
                                                            • Amazon Transcribeによる音声認識をポーリング方式(Step Functions + Lambda)でやってみた | DevelopersIO

                                                              Amazon Transcribeによる音声認識をポーリング方式(Step Functions + Lambda)でやってみた Step FunctionsとLambdaを使って**ポーリング方式**によりAmazon Transcribeを利用する仕組みを作ってみたのでご紹介したいと思います。 こんにちは、CX事業本部の若槻です。 本エントリは、AWS LambdaとServerless #1 Advent Calendar 2019の2日目のエントリです。 Amazon Transcribeは、音声認識ジョブの開始から完了までが非同期実行となるため、ジョブの結果取得には主に以下のような方式をとることになります。(AWS機能を利用する場合) ポーリング方式(Step Functions) イベントドリブン方式(CloudWatch Events) 紹介記事:Amazon Transcri

                                                                Amazon Transcribeによる音声認識をポーリング方式(Step Functions + Lambda)でやってみた | DevelopersIO
                                                              • 記者に特化した音声認識モデル(Whisper)を作った話|朝日新聞社 メディア研究開発センター

                                                                こんにちは、メディア研究開発センターの山野陽祐です。 先日、朝日新聞の記者に特化したWhisper (音声認識モデル)を構築し、3月末から社内向けツール「YOLO」にて運用を開始しました。それに至るまでの道のりをこちらの記事でご紹介します。 なお、学習データとして活用するファイルは、社内会議や公の記者会見とし、個人情報やセンシティブな情報が含まれるファイルは使用しておりません。 データ「YOLO」は音声や動画の文字起こしをする社内向けのサービスで、約2年前にリリースしました。この間にアップロードされた音声ファイルや動画ファイルは数千時間におよび、そのうち学習に使えるデータも多くあります。 ここでは、YOLOで蓄積されたデータを紹介し、続いて学習データや評価データについても述べます。 YOLOデータアップロード時、ユーザーにファイルの"ジャンル"を指定してもらうようなサービス設計をしています

                                                                  記者に特化した音声認識モデル(Whisper)を作った話|朝日新聞社 メディア研究開発センター
                                                                • 音声認識・音声合成・環境音の研究…… 音声処理はますますおもしろくなっていく ここまで来た音声技術

                                                                  音声技術はますますおもしろくなってきている 戸上真人氏(以下、戸上):それでは「ここまで来た音声技術・今後の展望」というタイトルで、パネル形式のカジュアルセッションを開始しようと思います。司会を務めますLINE株式会社の戸上と申します。よろしくお願いいたします。 はじめに、このカジュアルセッションの概要をお伝えしたいと思います。今回の「LINE DEVELOPER DAY 2020」でも多数お伝えしていますが、End-to-Endの音声認識技術やEnd-to-Endの音声合成技術など、DNNベースの音声処理技術が非常に今ホットなトピックになってきてまして、使える段階に来ているんじゃないかなと思っています。 また、環境音識別技術など、これまでにない新しい技術分野も広がりつつありまして、ますますおもしろくなってきているんじゃないかなと私も感じています。 ということで、その音声処理技術を題材にし

                                                                    音声認識・音声合成・環境音の研究…… 音声処理はますますおもしろくなっていく ここまで来た音声技術
                                                                  • Fire TV向け「Alexa対応音声認識リモコン」にProモデル登場 バックライトやプログラマブルボタン付きで3980円

                                                                    「リモコンを探す」機能 Alexa対応デバイス、Alexaアプリ、Fire TVアプリからの操作でリモコンを検索可能 このことに伴い、本体にスピーカーを内蔵 バックライト搭載 暗所でリモコンを持ち上げると自動的に点灯 「カスタムボタン」搭載 使途をカスタマイズできるボタンを2つ搭載 任意のアプリを起動するショートカット、またはAlexaコマンドのショートカットとして利用可能 機能の割り当てはボタンの長押しで行える プリセットボタンも従来通り4つ搭載(日本向けモデルでは「Prime Video」「Netflix」「ABEMA」「Amazon Music」のショートカットを搭載) 「ヘッドホンボタン」搭載 Bluetoothオーディオデバイスのペアリング/ペアリング解除を簡単に行える

                                                                      Fire TV向け「Alexa対応音声認識リモコン」にProモデル登場 バックライトやプログラマブルボタン付きで3980円
                                                                    • 音声認識・自然言語処理技術を活用した動画編集ソフトを開発するAI CommunisがエンジェルラウンドでUSD50万ドルの資金調達を実施

                                                                      音声認識・自然言語処理技術を活用した動画編集ソフトを開発するAI CommunisがエンジェルラウンドでUSD50万ドルの資金調達を実施 ~組織強化のため、社外取締役に杉田玲夢氏、COOにKenny Wang氏が参画~ 世界最先端の音声認識および自然言語処理技術を活用したソリューション、ソフトウェア開発に特化した研究開発型スタートアップAI Communis Pte. Ltd.(本社:シンガポール、Co-Founder & CEO:鈴木信彦、読み:エーアイ コムーニス、以下「当社」)は、プロダクト開発を加速させるため、アメリカ、日本およびシンガポールのエンジェル投資家よりUSD50万ドルの調達を完了しました。また成長の更なる加速、組織運営の高度化のため、社外取締役として杉田玲夢氏、Chief Operations OfficerとしてKenny Wang氏が参画したことをお知らせいたします

                                                                        音声認識・自然言語処理技術を活用した動画編集ソフトを開発するAI CommunisがエンジェルラウンドでUSD50万ドルの資金調達を実施
                                                                      • はじめての自然言語処理 QuartzNet による音声認識の検証 | オブジェクトの広場

                                                                        今回は趣向を変えて音声認識について紹介します。分野的には自然言語処理(NLP)でなくて自動音声認識(ASR)なのはわかっているんですが、「人間の発する言葉を機械で処理する」枠には収まっているので、まぁ良いかということで。手法としては NVIDIA の QuartzNet を用いて、日本語音声の認識に挑戦します。 1. はじめに 今回は趣向を変えて音声認識を扱います。いつものように日本語のデータセットを用いて学習や推論のコード例と実験結果を紹介していきますので、興味のある方は試して頂けると良いかと思います。手法としては NVIDIA が開発した End-to-End の音声認識モデルである QuartzNet 1 を用います。最近は End-to-End の音声認識ですと 日本の方が多く開発に携わっている ESPnet 2 の方が情報が多い気がしますが、最近は Transformer がらみ

                                                                          はじめての自然言語処理 QuartzNet による音声認識の検証 | オブジェクトの広場
                                                                        • NECと日本テレビ、AI音声認識技術で生放送番組に自動字幕を付与する実証を実施 認識精度は99.0%

                                                                          『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

                                                                            NECと日本テレビ、AI音声認識技術で生放送番組に自動字幕を付与する実証を実施 認識精度は99.0%
                                                                          • 音声認識字幕ちゃん・チャット翻訳ちゃん(西村良太)

                                                                            認識ちゃん・翻訳ちゃん(西村良太)

                                                                            • 日本語音声認識API主要5社比較

                                                                              1. 日本語音声認識の比較実験実際にそれぞれのAPIを使用して同一の音声データをテキスト化。 正解のテキストと比較して認識精度を評価する。 1.1. 音声認識の評価指標CER(Character Error Rate)によって評価を行う。 CERとは、例えば正解テキストが「こんにちは」だったとして「こんばんは」と認識された場合、 5文字中2文字が間違っているため「CER=2/5=40%」のようにエラー率を計算する評価指標。 pythonではjiwerというライブラリを使用することで簡単に計算できる。 エラー率なので値が小さいほど精度が良いことになる。 本記事における実験結果ではCERの逆数、つまり正解率を記載しているため値が大きいほど精度が良い。 1.2. 認識する音声データ声優事務所の音声サンプルを使用した。 アイムエンタープライズの公式WEBサイトは音声サンプルの長さがほどよく、ファイ

                                                                                日本語音声認識API主要5社比較
                                                                              • 音声認識技術とは? 議事録作成ツールの現在地、オンプレミスとクラウドの違いと選定ポイント

                                                                                音声認識技術とは? 議事録作成ツールの現在地、オンプレミスとクラウドの違いと選定ポイント(1/2 ページ) 音声認識技術にあらためて注目が集まる。近年は、働き方改革を背景として、議事録作成支援ツールやコールセンターを中心にビジネスでの活用が広まっている。その実力とは? 認識精度やメリット、オンプレミスとクラウドAPIの違い、製品選定のポイントを解説する。 生産性向上のための手段として期待を集める音声認識 音声認識技術を活用したITソリューションが注目を集めている。音声認識とはその名の通り、人が話した音声をコンピュータが自動的に認識し、テキストデータに変換するというもの。これを応用することで、多くの人手が費やされている仕事を省力化でき、業務効率化を実現できるといわれる。既にコールセンター業務や医療現場、議事録作成といった分野で活用されており、最近ではRPA(Robotic Process A

                                                                                  音声認識技術とは? 議事録作成ツールの現在地、オンプレミスとクラウドの違いと選定ポイント
                                                                                • フジ「silent」で話題の音声認識アプリは実在「本当にあんな感じで使えます」公式が反響に感謝 - スポニチ Sponichi Annex 芸能

                                                                                  フジ「silent」で話題の音声認識アプリは実在「本当にあんな感じで使えます」公式が反響に感謝

                                                                                    フジ「silent」で話題の音声認識アプリは実在「本当にあんな感じで使えます」公式が反響に感謝 - スポニチ Sponichi Annex 芸能