並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 274件

新着順 人気順

音声認識の検索結果1 - 40 件 / 274件

  • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

    株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

      超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
    • Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話

      稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h 電話を取ると「Google マップです」と男性から電話。 Google「この電話はGoogle マップの店舗様の営業時間を自動で確認しております」 ぼく「はい」 Google「そちらの営業時間を教えてください」 ぼく「月曜から金曜の9時〜18時です」 Google「土曜日と日曜日の営業時間も教えてください」 ↓ 2022-01-25 10:26:41 稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h ぼく「土曜と日曜は普通にお休みです」 Google「確認させてください。そちらの営業時間は月曜から金曜の9時〜18時でよろしいでしょうか」 ぼく「はい」 Google「ありがとうございました(電話を切りそうな気配)」 ぼく「待って。参

        Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話
      • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

        東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

          超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
        • 培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

          人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f

            培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
          • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

            こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

              OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
            • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

              画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
              • [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開

                [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開 GitHubは、年次イベント「GitHub Universe 2022」の基調講演で、音声によるGitHubの操作やコーディングを可能にする実験的機能「Hey, GitHub!」をプレビュー公開しました。 'Hey, GitHub!' is an experiment from the GitHub Next team that aims to reduce the need for a keyboard by enabling voice-based interaction with GitHub Copilot. Sign up now to join the waitlist: https://t.co/4YOSuA6cUr — GitHub (@github

                  [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開
                • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                  OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                    音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                  • Googleが発音のチェックを行う音声認識サービスを開始

                    By Prostock-studio Googleが単語の発音チェックを行う新しいサービスを2019年11月14日(木)から開始しました。音声ファイルをAIが認識して文字起こしをしたり、声を出さずに音声入力をしたりと音声認識の技術は日々進化しています。Googleによる発音チェック機能は機械学習を用いた技術となっており、英語学習を格段に効率的にしてくれます。 How do you pronounce quokka? Practice with Search https://www.blog.google/products/search/how-do-you-pronounce-quokka-practice-search/ Google search will now give you feedback on your pronunciation - The Verge https://w

                      Googleが発音のチェックを行う音声認識サービスを開始
                    • LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始 ~話者を区別した議事録作成も可能/世界3位の性能評価成績を獲得したAI音声認識モデルを採用

                        LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始 ~話者を区別した議事録作成も可能/世界3位の性能評価成績を獲得したAI音声認識モデルを採用
                      • GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み

                        ChatGPTやBardなどで利用されているチャットAIは、トレーニングだけでなく動作させるのにも数十~数百GBのVRAMなど非常に高いマシンスペックを要求するのが一般的です。そうした状況を変えるべく、GPU不要でチャットAIを動作させるライブラリ「GGML」の開発が進められています。 ggml.ai http://ggml.ai/ ggerganov/ggml: Tensor library for machine learning https://github.com/ggerganov/ggml GGMLの特徴は下記の通り。 ・Cで記述 ・16bit floatをサポート ・4bit、5bit、8bitの整数での量子化をサポート ・自動微分 ・「ADAM」「L-BFGS」という最適化アルゴリズムを搭載 ・Appleシリコンへの対応&最適化 ・x86アーキテクチャではAVXおよびAVX

                          GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み
                        • ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう

                          家電量販店に行くと今でもボイスレコーダーのコーナーがあり人気だ。またスマートフォンにも必ずボイスメモアプリがある。筆者も一時期アイデアをボイスメモで録り溜めていた。しかし、ボイスメモは聞き直す必要があり管理が面倒という欠点もある。そこで、今回はPythonからMicrosoftのAPIを利用して自動的にボイスメモをテキストに変換する方法を紹介しよう。 WAVファイルを音声認識してテキストに変換したところ 音声認識APIを使ってみよう AI技術の進歩により音声認識の精度が向上している。これまでも音声認識の技術はあったものの精度が今一歩だった。そして個人ユーザーが気軽に活用できる感じではなかった。ところが、最近では、各社が競い合うように音声認識の精度向上に力を入れている。各社から発売されているAIスピーカーを積極的に活用している読者も多いことだろう。 そして、大きな点として、Microsoft

                            ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう
                          • 音声認識AIのWhisperをUnreal Engineでリアルタイムに動かすためにやったこと

                            「Unreal Engine (UE) Advent Calendar 2022 その3」23日目の記事です。 はじめに OpenAIの音声認識AI「Whisper」がすごいらしい。これをUnreal Engineでリアルタイムに動かせるようにしたら応用範囲が広がっておもしろいんじゃないかと思いました。 (「異議あり!」って実際に声に出させたいよね) (NLPアドベンチャーを音声入力で、みたいな夢も広がる) しかし、いざやってみたらいろいろな課題にぶつかりました。この記事は、それらをどう解決したかの記録です。 目次 目標設定:C++とONNX Runtimeで実装する Whisperの処理の全体感 課題と対応 課題1:マイク入力と前処理をC++で実装する 課題2:Whisperの機械学習モデルをONNXにエクスポートする 課題3:ONNXモデルをtransformer&FP16向けに最適化

                              音声認識AIのWhisperをUnreal Engineでリアルタイムに動かすためにやったこと
                            • 面倒な文字起こし作業を一瞬で実行可能なLINE製AI音声認識アプリ「CLOVA Note」の使い方まとめ

                              インタビューの記録や会議の議事録を作成する際は録音した音声を聞いて文字起こしする作業が必要ですが、自分の耳で聞いて一から文字起こしするのは非常に手間がかかる作業です。LINE株式会社が開発した音声認識アプリ「CLOVA Note」ならAIの力を利用して文字起こしが可能とのことなので、実際に使って文字起こしの手順や精度を確かめてみました。 CLOVA Note公式サイト https://clovanote.line.me/ CLOVA NoteにはiOS版・Android版・ブラウザ版が存在しており、利用の際にはLINEアカウントが必須です。今回はiOS版とブラウザ版を使ってみます。 ・目次 ◆1:iOS版CLOVA Noteのインストール&初期設定 ◆2:アプリ版CLOVA Noteの使い方 ◆3:ブラウザ版CLOVA Noteの使い方 ◆4:アプリ版CLOVA Noteとブラウザ版CLO

                                面倒な文字起こし作業を一瞬で実行可能なLINE製AI音声認識アプリ「CLOVA Note」の使い方まとめ
                              • 生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話

                                株式会社クラウドネイティブは、Azure OpenAIで自組織専用のChatGPTの構築を支援するサービスを展開しています。ChatGPTとAzure AD OpenAI Serviceの取り組みや事例、支援… IDチームの前田です。今日は生成AI(ChatGPT)と音声認識モデル(Whisper)を利用した会議アシスタントツールに関する投稿になります。 (追記) 作ったツールはGitHub上で公開しており、Dockerを利用してすぐに試せるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年8月30日現在Azure OpenAIにてWhisperが利用出来ていないため、OpenAI Whisper APIを利用した試験段階のものになります。近日中にAzure OpenAIにてWhisperが利用出来るとアナウ

                                  生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話
                                • AmazonやAppleの音声認識アルゴリズムに「黒人の声を上手く聞き取ることができない」問題があると研究者が指摘

                                  音声認識アルゴリズムはスマートスピーカーやスマートフォンなど、さまざまなデバイスやアプリケーションに採用されており、もはや日常の一部となっています。ところが、AppleやAmazon、Google、IBM、Microsoftなどの音声認識アルゴリズムを使った実験で、「音声認識アルゴリズム白人の声と比較して黒人の声を上手く認識できない」問題があることが判明しました。 Racial disparities in automated speech recognition | PNAS https://www.pnas.org/content/117/14/7684 There Is a Racial Divide in Speech-Recognition Systems, Researchers Say - The New York Times https://www.nytimes.com/

                                    AmazonやAppleの音声認識アルゴリズムに「黒人の声を上手く聞き取ることができない」問題があると研究者が指摘
                                  • スマホが高性能ICレコーダーに!使ってわかったLINEの無料AI音声認識アプリ「CLOVA Noteβ」の実力|@DIME アットダイム

                                    ビジネスパーソンに必須といえる〝会議〟。 会議には議事録がつきものですが、できることなら機械に任せたいもの。しかし、音声認識をして文字起こしするソフトやサービスは昔からありましたが、高額かつ低認識率のものも多かったです。 そんな中、奇跡のスマホアプリが出現しました。まだベータ版(試用版)ですがいずれ正式版がリリースされるはずです。 それでは、LINEの無料AI音声認識アプリ「CLOVA Noteβ」についてご紹介します。 楽するだけではない! 議事録を書かなくて済むメリットとは? 「CLOVA Noteβ」は、録音しながらまずは話の概要をざっくり聞き、録音・文字認識が完了した二周目に「CLOVA Noteβ」で音声を「耳」で聞きます。そして自動文字起こしされた「文字情報」を目で確認できるのです。つまり、会議の内容を熟考できて知識が深まるのが最大のメリットです。 「CLOVA Noteβ」を

                                      スマホが高性能ICレコーダーに!使ってわかったLINEの無料AI音声認識アプリ「CLOVA Noteβ」の実力|@DIME アットダイム
                                    • Yoshiki NAGATANI on Twitter: "PC+Android+無料のツールだけで自動音声認識による字幕付き配信(ウェブ会議)をおこなう方法を紹介してみました。広く普及して常識になって欲しい(すべてのウェブ会議システムがデフォルトで対応してくれてこの動画が無駄になることを… https://t.co/Ms8baQ0XcC"

                                      PC+Android+無料のツールだけで自動音声認識による字幕付き配信(ウェブ会議)をおこなう方法を紹介してみました。広く普及して常識になって欲しい(すべてのウェブ会議システムがデフォルトで対応してくれてこの動画が無駄になることを… https://t.co/Ms8baQ0XcC

                                        Yoshiki NAGATANI on Twitter: "PC+Android+無料のツールだけで自動音声認識による字幕付き配信(ウェブ会議)をおこなう方法を紹介してみました。広く普及して常識になって欲しい(すべてのウェブ会議システムがデフォルトで対応してくれてこの動画が無駄になることを… https://t.co/Ms8baQ0XcC"
                                      • 無料のAI音声認識アプリ「CLOVA Note β(クローバ・ノート)」 本日より提供開始! | ニュース | LINE株式会社

                                        LINEの音声認識AIによるテキスト変換機能を無料提供 複数名の話者分離を可能とした会議の議事録作成や書き起こしにマルチデバイスで対応 LINE株式会社(本社:東京都新宿区、代表取締役社長:出澤 剛)は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note(クローバ・ノート)」のβ版の提供を本日5月24日(火)より開始しましたので、お知らせいたします。 「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリをインストールし、スマートフォンやタブレットの録音ボタンを押すだけで、誰でも簡単にご利用いただけます。学校での授業やセミナーなどの書き起こしメモだけでなく、録音時の複数

                                          無料のAI音声認識アプリ「CLOVA Note β(クローバ・ノート)」 本日より提供開始! | ニュース | LINE株式会社
                                        • AI音声認識テクノロジーでユーザーの発音をチェックして正す言語学習アプリ「Speak」レビュー

                                          「ChatGPT」開発のOpenAIによる投資も受けたことのある、AIでユーザーの声をチェックする言語学習プラットフォーム「Speak」を無料の範囲で試してみました。 SpeakはiOS版とAndroid版がありますが、今回はiOS版を使用します。 アプリを開いたら「ログインしてください」をタップ。 「今すぐ登録」をタップ。 「Eメールアドレスで続ける」をタップします。 そして「名前」「Eメール」「パスワード」を入力し、「会員登録」をタップしたらサービスを利用できるようになります。 ホーム画面はこんな感じ。「ここから始める」と書かれた部分をタップしてみます。 すぐにマイクへのアクセス権を求められるので今回は「OK」をタップ。 すると「Meg」との通話スタイルのレッスンが始まります。通話といってもリアルタイムの会話ではなく、録音された音声。流ちょうな英語・日本語で「How's it goin

                                            AI音声認識テクノロジーでユーザーの発音をチェックして正す言語学習アプリ「Speak」レビュー
                                          • OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。

                                            OpenAIの音声認識モデルWhisperを利用し音声をテキストへ書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリースされています。詳細は以下から。 ChatGPTやGPT-3などを開発しているOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システムWhisperを公開しましたが、その音声認識モデルを利用して音声ファイルをテキストへ変換(書き起こし)してくれるMacアプリ「MacWhisper (Whisper Transcription)」が新たにリリースされています。 Quickly and easily transcribe audio files into text with OpenAI’s

                                              OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。
                                            • Pythonを使って、画像認識や音声認識を学ぶ——リックテレコム、「使ってわかったAWSのAI」を刊行|fabcross

                                              本書はAWSのAIサービスについて、全体像を掴むことを目的とした解説書だ。 全5章構成。第1章で人工知能全般について、第2章でAWSの機械学習サービスについてそれぞれ解説した後、第3章「AIサービス」では、Pythonを使って画像認識(Rekognition)や音声認識(Transcribe)、自然言語処理(Amazon Comprehend)やドキュメント分析(Amazon Textract)など、各種AIサービスやSDKについて解説する。トレーニングデータを準備し、時系列予測のための予測モデルを作成するAmazon Forecastについても触れる。 また、第4章では完全マネージド型の機械学習サービス「SageMaker」の組み込みアルゴリズムの作成、第5章ではEC2環境を利用して深層学習フレームワーク「Deep Learning AMI」について解説する。 著者は井上研一氏。B4変型

                                                Pythonを使って、画像認識や音声認識を学ぶ——リックテレコム、「使ってわかったAWSのAI」を刊行|fabcross
                                              • 「CLOVA Note」は、なぜ高精度な音声認識を実現できるのか。Speechチームが語る開発秘話

                                                LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2022年5月24日より、LINE株式会社は「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を開始しました。「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIを活用して、録音した声をテキストに変換します。アプリをインストールし、スマートフォンやタブレットの録音ボタンを押すだけで、誰でも簡単に利用可能です。 「CLOVA Speech」は、近年注目を集めているSelf-Supervised Learning(自己教師あり学習)を利用した、最先端のEnd-to-End音声認識を採用しています。そして複数名の話者の区別を行う

                                                  「CLOVA Note」は、なぜ高精度な音声認識を実現できるのか。Speechチームが語る開発秘話
                                                • 音声認識AIに言葉を覚えさせよう!! (COTOHA音声認識) - Qiita

                                                  COTOHA APIとは?? NTTが長年頑張って得たノウハウを詰め込んだ、NTTコミュニケーションズが提供する自然言語処理のAPIサービスになります!! サービスの詳細 はこちらを見て頂くとして、これまでは構文解析やユーザ属性推定などのテキスト解析のサービスを提供していました。 Python初心者 COTOHA API 初心者 "自然言語処理を簡単に扱えると噂のCOTOHA APIをPythonで使ってみた"で、テキスト解析で遊んでもらってからこの記事を見て頂くことをオススメします!! リファレンス はこちら GitHub はこちら さて本題に入りましょう!! 今回はテキストではなく... 音声認識 !! 今までCOTOHAは、テキストしか相手にしてくれませんでした... しかし、音声認識APIが2019年3月にリリースされCOTOHA君が音声言語を理解するようになりました!!しかも、

                                                    音声認識AIに言葉を覚えさせよう!! (COTOHA音声認識) - Qiita
                                                  • End-to-End音声認識の計算量を削減した話

                                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯(黒帯はヤフー内のスキル任命制度)の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。 特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。 音声認識で用いられるEnd-to-Endモデルとは? 音声認識技術は音声をテキ

                                                      End-to-End音声認識の計算量を削減した話
                                                    • 息子氏が「OK, Google」と言っても音声認識してくれない可愛すぎる理由→子育ての超あるあるだった「うちも言ってる」

                                                      谷本 心 / CERO-METAL @cero_t 【悲報】息子氏、一生懸命「OK, Google」と言おうとするも、どうしても「おっけー、ぐーるぐる」となってしまい、まったく認識されない。 2019-07-24 06:55:05 Shin Tanimoto / CERO-METAL @cero_t Java Champion / Java本格入門 / Everforth CTO / Acroquest Technology / 技術顧問(個人事業) / 中受2027 / FEXL Tokyo / We are BABYMETAL🦊🤘

                                                        息子氏が「OK, Google」と言っても音声認識してくれない可愛すぎる理由→子育ての超あるあるだった「うちも言ってる」
                                                      • Microsoft、米音声認識大手を1.7兆円で買収へ 米報道 - 日本経済新聞

                                                        【シリコンバレー=白石武志】米ブルームバーグ通信は11日、米マイクロソフトが音声認識技術大手の米ニュアンス・コミュニケーションズの買収に向け交渉を進めていると報じた。買収額は約160億㌦(約1兆7500億円)となる見込み。米グーグルなどとの競争が激しい音声人工知能(AI)分野を強化する狙いとみられる。ニュアンス社はAIを使った音声認識サービスの老舗で、米アップルの音声アシスタント機能「Siri

                                                          Microsoft、米音声認識大手を1.7兆円で買収へ 米報道 - 日本経済新聞
                                                        • 世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能

                                                            世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能
                                                          • LINEは気づいている!音声認識の実力差が「国力」を左右する理由(西田 宗千佳)

                                                            身近なあの技術で広がる「格差」 我々にも身近なある技術の「精度の差」が、今後の国力を左右するほどの大問題になりつつある、といったら驚くだろうか? 大げさな話ではない。そしてじつは、今この瞬間も、「その差」は拡大しているのだ。 どういうことか? 俗に「AI」とよばれる技術は、多様な要素を含んでいる。なかでも、我々の生活の中にすでに入り込み、必須の要素となっているのが「画像認識」や「音声認識」などの技術だ。 このうち「音声認識」技術の進展具合が、これからの数年間で国力に大きく影響を与えるようになる──筆者はこう予想している。 それはなぜか? 「AI」の一要素にすぎない技術がなぜ、そこまで大きな影響力をもちうるのか? その点を深掘りしてみよう。 今いちばん話題のアプリ 「あのアプリは必須だよね」 2018年末くらいから、海外在住の記者や海外取材が多いライターのあいだで、大きな評判をよんでいるアプ

                                                              LINEは気づいている!音声認識の実力差が「国力」を左右する理由(西田 宗千佳)
                                                            • LINEのAIサービスの音声認識技術を支えるチームを紹介します

                                                              LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINEの提供するAI関連のソリューションやプロダクトに実装されている、音声認識技術の開発を担当しているチームを紹介します。 Speechチームの木田祐介、坂本渚、芦川博人に話を聞きました。 Speechチームの皆さん まず、自己紹介をお願いします。 木田:AIカンパニーにて音声認識技術の開発を行っているSpeechチームのマネージャーをしています。1年ほど前にエンジニアとしてSpeechチームにジョインして、今年の1月からマネージャーを務め

                                                                LINEのAIサービスの音声認識技術を支えるチームを紹介します
                                                              • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai

                                                                インター・ラボ株式会社は12月15日、人工知能研究組織OpenAIが開発した音声認識モデル「Whisper」を利用した音声文字起こしAPIである「WhisperAPI」の無償提供を開始したことを発表した。OpenAIは、文章から画像を生成するAI「DALL・E2」や、自然で多彩な文章を生成するAI「GPT-3」などを開発している。 高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いユーザーが利用できるようにする。また、プログラミングの知識を持たない人でもブラウザでかんたんに利用できるWebサービスも提供する。 画像はWhisper公式Githubより Whisperとは、OpenAIが開発した汎用的な音声認識モデルで、現在GitHubにおいて公開されている。教師あり学習で68万時間というデータを学習しており、高い音声認識精度を持つ。音声翻訳や言

                                                                  OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai
                                                                • 人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】

                                                                  人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】 2023年12月13日 米Indiana University Bloomingtonなどに所属する研究者らが発表した論文「Brain organoid reservoir computing for artificial intelligence」は、人間の脳細胞を用いて基本的な音声認識を行うAIシステムを提案した研究報告である。 このシステムは、生きている脳細胞の塊、すなわち脳オルガノイドを利用している。脳オルガノイドは、幹細胞を特定の条件下で育成することによって人工的に作られる、数ミリメートルの神経細胞の塊(ミニ脳組織)である。この脳オルガノイドは、最大で1億の神経細胞を含んでおり、計算に使用される。この脳オルガノイドは、成熟したニューロン、アストロサイト、神経前駆細胞など、さまざまな脳細胞のアイデン

                                                                    人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】
                                                                  • 「新しいBing×音声認識」で感じた“検索新時代” スマートスピーカーはもう古い

                                                                    2月8日、Microsoftのブラウザ「Edge」にAIを搭載した「新しいBing」が搭載されたことで、ブラウザをEgdeに乗り換える人もそこそこあったのではないだろうか。筆者もAI搭載のBingを使ってみたい一心で、ChromeからEdgeに乗り換えてみたところだ。 筆者は2015年に執筆環境をMacへ移行したので、Edgeはほとんど使ったことがない。MacOSに初めてEdgeをインストールしてみたのだが、Chromiumベースというだけあって、Chromeから設定を移行すると、拡張機能のほとんどがそのまま利用できた。乗り換えは比較的スムーズである。 ブラウザの世界シェアは、2022年の調査ではChromeが64.95%でぶっちぎりのトップ、継いでSafariの19.01%、3位がEdgeの3.99%、4位がFirefoxの3.26%となっている。EdgeがデフォルトのWindowsユー

                                                                      「新しいBing×音声認識」で感じた“検索新時代” スマートスピーカーはもう古い
                                                                    • PayPayのやり方を友達に聞いたら「音声認識だからレジに向かって大きめの声で『PayPay』って言えばいい」と教えられた話

                                                                      うっちー©︎ @saso_______unko PayPayやった事なくて、やっと登録したんだけど使い方がわからず、友達に聞いたら「音声認識だからレジ機に向かって大きめの声でPayPayって言うと自動的に支払われる」と教えられたので、コンビニレジ機に向かって大きな声でPayPay!と言い放った後、店員さんが苦笑いで解説してくれた辺りから記憶ない 2022-12-01 19:30:35

                                                                        PayPayのやり方を友達に聞いたら「音声認識だからレジに向かって大きめの声で『PayPay』って言えばいい」と教えられた話
                                                                      • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

                                                                        本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

                                                                          音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
                                                                        • 培養脳でコンピューター 神経細胞で音声認識に成功、米インディアナ大学 - 日本経済新聞

                                                                          米インディアナ大学ブルーミントン校などは、人の幹細胞から作った神経細胞を集積した「培養脳」を用いて簡易なコンピューターを開発した。従来のコンピューターより少ない電力で計算できると期待される。実用化できれば、電力消費の拡大に対応する手段の一つとなる。人工知能(AI)の普及などデジタル化の急速な進展は電力の大量消費を伴う。例えば、米オープンAIの大規模言語モデル「GPT-3」が学習に必要な電力量は

                                                                            培養脳でコンピューター 神経細胞で音声認識に成功、米インディアナ大学 - 日本経済新聞
                                                                          • 音声認識が急激に進化、実用レベルになったフリーの文字起こしソフト

                                                                            会議録を作る際、録音を繰り返し聞いて文字起こしするのは大変だ。最近は音声認識の技術が急速に進化し、無料でテキスト化できるアプリもある。使わないのは損だ。 「LINE CLOVA Note」は認識精度が高く、複数の話者を区別できるので実用性が高い(図1)。利用にはLINEアカウントが必要(図2、図3)。スマホアプリ版はその場で録音するか、音声ファイルをアップロードして使える(図4)。録音する場合でも即座にテキスト化されるわけではなく、録音終了後に文字認識が始まる。パソコンではウェブサービス版を利用できる(図5)。よく使う単語を登録しておくと、認識精度がより高まる(図6)。

                                                                              音声認識が急激に進化、実用レベルになったフリーの文字起こしソフト
                                                                            • 話題沸騰フジ「silent」に登場する音声認識アプリ、ドラマ起用で利用者増加 公式が感謝、ネット反響 - スポニチ Sponichi Annex 芸能

                                                                              話題沸騰フジ「silent」に登場する音声認識アプリ、ドラマ起用で利用者増加 公式が感謝、ネット反響

                                                                                話題沸騰フジ「silent」に登場する音声認識アプリ、ドラマ起用で利用者増加 公式が感謝、ネット反響 - スポニチ Sponichi Annex 芸能
                                                                              • ヒトの脳組織を培養した「ミニ脳」でコンピューターの構築に成功。日本語音声認識や数学理論を理解 : カラパイア

                                                                                米国インディアナ大学ブルーミントン校の研究チームが開発したバイオコンピューターは、培養した人間の脳組織が組み込まれた文字通り”生きたコンピューター”だ。 どんなコンピューターにも敵わない人間の脳のパワーの秘密は、ニューロン(神経細胞)がプロセッサーとメモリの両方の役割を果たすことで生まれる効率性にある。 人間の幹細胞から培養した脳オルガノイド(生体外で3次元的に作られたミニ脳)を搭載した「Brainoware」は、コンピューターを脳に近づけようという試みをさらに一歩進めたもので、人間の音声を認識したり、カオスのような非線型方程式を予測したりすることに成功している。

                                                                                  ヒトの脳組織を培養した「ミニ脳」でコンピューターの構築に成功。日本語音声認識や数学理論を理解 : カラパイア
                                                                                • 【活用事例あり】音声認識とは?仕組み、4つの導入効果を徹底解説

                                                                                  「音声認識の概要をキャッチアップしたい」 「自社にとって導入の価値があるのか見極めたい」 という方におすすめの内容となっています。この解説を最後までお読みいただければ、「音声認識で何ができるのか」はもちろん、その必要性まで理解できるようになるでしょう。 導入の注意点も解説しているので、導入の際には失敗を回避できるはずです。 では、さっそく音声認識の解説を始めましょう。 1.音声認識とは まず音声認識の基礎知識から解説します。 1-1.音声認識とはコンピューターに音声を自動認識させる技術 冒頭でも触れましたが、音声認識とは「コンピューターに人間の音声を自動認識させる技術」のことです。 人間が発する音声をコンピューターに取り込んで解析し、話し言葉をテキスト(文字)に変換して表示したり、音声の特徴から発声者を識別したりします。 音声認識は、行政から医療や顧客対応の現場までさまざまなシーンで活用さ

                                                                                    【活用事例あり】音声認識とは?仕組み、4つの導入効果を徹底解説