こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 本記事では、株式会社レアゾン・ホールディングスが2023年1月18日に公開したReazonSpeechを使ってみたいと思います。 ReazonSpeechはプロダクト群の総称で、日本語に特化した超高精度なモデルと、その学習に使用されたコーパス、コーパス作成のためのツールなどが公開されています。 詳細は下記リンクを参照ください。 モデルの方は、ライセンスがApache-2.0となっており商用利用も可能な形となっています。 コーパスはテレビなどの音声となりますので、CDLA-Sharing-1.0 (ただし利用目的は著作権法30条の4に定める情報解析に限る)とされています。 今回はこのモデルをColab上で動かして、以前投稿したWhisperなどと比較してみたいと思います。 実行手順は下記の以前の記事も参考にされてください
https://gijiroku.fukuyuki.net/ よくある、音声認識で自動で議事録をつけるやつをつくりました。MacやWindowsやChromebookなどのChrome専用です。 Pixel4の文字起こしデモが出て、「議事録に使える!」「議事録に使える!」「議事録に使える!」というツィートが多くて、え?前から文字起こしアプリやサービスって結構あるよねって思った。各種IME(オジサン語: FEP)も音声認識に対応し、google driveでも音声認識できる令和元年、そんなにすごいのか。話者認識やオフライン大事なのかな? たしかに議事録に特化したやつないよなぁと思って自動議事録作成ツールを作った。ChromeのSpeechRecognitionの音声認識のまんまなので、音声認識率はGoogleクオリティです。ばんざい。バックグラウンドでも動作します。また、音声認識で文字起こし
メタは、音声データと付随するテキストデータを納めたデータセットがなくても、わずかなデータから音声認識・生成可能なAIモデルを構築した。多くの言語に対応した音声アプリの開発に役立つ可能性がある。 by Rhiannon Williams2023.05.25 2 15 メタ(Meta)は1000以上の言語について、音声認識・生成が可能な人工知能(AI)モデルを構築した。対応可能な言語の数はこれまでの10倍となる。この取り組みは、消滅の危機に瀕している数々の言語の保存に向けた重要な一歩であると同社は述べている。 メタは、コード・ホスティング・ サービス「ギットハブ(GitHub)」を通じてモデルを公開した。同社は、モデルをオープンソース化することで、異なる言語を使う開発者が、すべての人が理解できるメッセージングサービスや、あらゆる言語で利用可能な実質現実(VR)システムといった新しい音声アプリケ
どの音声認識サービスを選べばよいか迷っていますか? 各サービスの比較一覧やフローチャートでお客様の案件にあったサービスがわかります。 ・サービスの違いを見る ・サービスの選び方資料ダウンロード 開発向け音声認識サービス AmiVoice API 従量課金制のクラウド型音声認識API AmiVoice API Private オンプレミス・お客様専用の音声認識API AmiVoice SDK オフラインで使える音声認識エンジン Amazon Connect 向けサービス AmiVoice TextStream for Amazon Connect Amazon Connectの通話のリアルタイム文字化サービス AmiVoice IVR for Amazon Connect Amazon ConnectのIVRに最適化した音声認識サービス
2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでEnd-to-End音声認識技術の実用化とAI音声記録サービス「CLOVA Note」について紹介されました。まずはNAVERのリュー ヒョクス氏から、サービスの紹介とそれに使われている技術について。 CLOVA Speechチーム リューヒョクス氏:End-to-End音声認識と「CLOVA Note」というサービスについて、LINEの木田とNAVERのリューヒョクスが発表します。この音声認識は、NAVER CLOVA、LINEのSpeechチーム共同での研究開発の成果です。よろしくお願いします。 本日は2部構成で発表いたします。最初にNAVER CLOVAのリューヒョクスがEnd-to-End音声認識とは
「IVS2023 KYOTO」内にて、次世代の起業家の登竜門とも言われる日本最大級のスタートアップピッチコンテスト「IVS LAUNCHPAD」が開催されました。本記事では、海外のピッチコンテストで10度以上優勝を経験しているPoeticsの山崎はずむ氏による、セールステックからより大きなAI API市場への展開ついての6分間のプレゼンテーションをお届けします。 「なぜ失注したのか」が見えない、営業のブラックボックス化 山崎はずむ氏(以下、山崎):はじめまして、Poeticsの山崎と申します。我々は電話・オンライン商談を解析するAI「JamRoll」を提供しています。 JamRollが解決する課題は、営業のブラックボックス化問題。成約・失注といった結果はSalesforceを見ればわかりますが、「なぜ失注したのか」というプロセスが見えないと改善策を打ち出せません。 一方で、成約や失注の原因
最近ではPythonでプログラミングをしたり、AI(人工知能)を使ったりする人が増えていますよね。 Pythonでプログラミングして作れる物の一つに、音声認識があります。以前は音声認識の精度があまり良くありませんでしたが、近年、音声認識の精度は驚くほど向上し、色々な言語の違いだけではなく、方言まで認識することができるようになったとのこと。さらに、さまざまなAPIの登場などにより、音声認識のプログラムを作成した経験がない人でも簡単に、Pythonで音声認識ができるようになりました。 とはいえ、何も知らない状態でいきなり音声認識を作るのはやはり難しいでしょう。そこで今回は、Pythonで音声認識を作る方法についてお伝えします。1つ1つ丁寧に解説していくので、Pythonの音声認識の作り方について、一緒にマスターしましょう!
3つの要点 ✔️ Facebook AIが新しい音声認識フレームワーク「wav2vec 2.0」を公開 ✔️ 自己教師あり学習により,少量の文字起こし音声と正解ラベルなし音声で学習 ✔️ ラベルなしデータ・ラベル付きデータのみの場合の両方で最高精度を達成 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations written by Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli (Submitted on 20 Jun 2020 (v1), last revised 22 Oct 2020 (this version, v3)) Comments: Accepted at NeurIPS 2020 Subject
米インターネット通販大手アマゾン・ドットコムのロゴ(2018年4月19日撮影、資料写真)。(c)Lionel BONAVENTURE / AFP 【5月30日 AFP】米インターネット通販大手アマゾン・ドットコム(Amazon.com)は29日、同社の人工知能(AI)アシスタント「アレクサ(Alexa)」に音声認識で会話を忘れさせる機能を追加したと発表した。 アマゾンのスマートスピーカー「エコー(Echo)」が会話を記憶していることをめぐる懸念を和らげるための措置で、同社によると「アレクサ、今日言ったこと全部消去して」と命じれば、その通り実行するという。 また現在、アレクサに会話内容をすぐに削除させる機能についても導入に向けて取り組みが進められているという。 インターネットに接続されているスマートスピーカーにはマイクやカメラが内蔵されており、プライベートな会話などを収集される恐れがあるとの
人間の声をコンピュータに認識させ、文字列に変換させたり、その特徴に応じて固有の反応を返し、識別する”音声認識”の技術。昨今はパソコン、スマートフォンへの関連機能搭載などもあって急速に世の中へと普及した。ひと昔前はごく一部の言語などにしか反応しなかったのも、AI技術の発展もあり、本格的な対話が実現できるレベルにまで至りつつある。 そんな音声認識はゲームに採用された例も複数ある。中でも『ピカチュウげんきでちゅう』、『シーマン』の2作品は現代ほど技術が発展していなかった時期を象徴する作品として、未だ輝きを放っている。以降も同様の技術を採用したゲームがいくつか誕生し、中には指示を飛ばし、困難を乗り越えるスリリングな内容のものも誕生している。 そんな指示を飛ばすタイプの音声認識採用ゲームがなんと!フリーゲーム界隈に現れた。 その名も『声で導け!脱出のアリア』。 ”あなた”の声で少女を脱出させろ!20
誰でも簡単に「会話を目で見る」ことができる 無料のAI音声認識アプリ「CLOVA Note β(クローバ・ノート)」本日より提供開始!LINEの音声認識AIによるテキスト変換機能を無料提供 複数名の話者分離を可能とした会議の議事録作成や書き起こしにマルチデバイスで対応 LINE株式会社(本社:東京都新宿区、代表取締役社長:出澤 剛)は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note(クローバ・ノート)」のβ版の提供を本日5月24日(火)より開始しましたので、お知らせいたします。 「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリをインストールし、スマートフォンや
京都大学は、アイヌ語の音声の自動認識・合成を行なう人工知能の開発に成功したと発表した。 消滅危機にあるアイヌ文化今回の研究は、アイヌ文化の多くが口頭で伝承され、アイヌ語は2009年にUNESCOにより「極めて深刻な」消滅危機言語に認定される事態となっている背景を受け進められていた研究。以前から、口頭伝承を録音・記録する活動が様々に行われてきたが、その書き起こし・アーカイブ化には膨大な手間と アイヌ語の知識を必要とするため、多くが未整備となっていた。 そこで同研究グループは、文化庁「アイヌ語のアーカイブ作成支援事業」を活用してアイヌ語アーカイブの構築に取り組んでいるアイヌ民族博物館や平取町立二風谷アイヌ文化博物館と協力しながら、2017年からアイヌ語の自動音声認識・合成(AINU語AI)の研究開発に取り組んできたという。 高い認識率研究では、提供された民話の音声データを分析。その結果、音節を
Introduction 各所で話題の日本語音声認識ツール,Voskがすごいです。 実際やってみたところ、簡単なプログラムで日本語のリアルタイム音声認識ができました。 (M1非対応かと思ってたけど、なんか普通に動いた) VoskのインストールからNodeで動かすところまでやっていきます。 Environment OS : MacOS 12.4 Node : v18.2.0 yarn : 1.22.15 MacBook Pro (13-inch, M1, 2020)で動作確認。 Try では実際にやってみます。 Githubにはいろいろなサンプルがありますが、 今回はこのシンプルなプログラムを使ってみます。 このサンプルはマイクから入力された音声を 日本語でコンソールに表示するだけのシンプルなものです。 まずは適当なディレクトリを作成し、voskをインストール。 % mkdir vosk-e
株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーションに、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。 このAIニュースのポイント AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 難聴者・聴覚障がい者との会議にも活用が可能 ソフトをインストールしていない人の画面にも字幕表示が可能 株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーション「AmiVoice ScribeAssist」に、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。また、2月19日(金)、ヤマハ ウェビナーにてZoom連携活用について講演が行われます。 Zoomミーティング・ウェビナーでの会話をリアルタイムで文字化し、画面内に字幕として表示できます。発話を視覚化することでより
「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る:「Python+PyTorch」と「JoeyNMT」で学ぶニューラル機械翻訳(終) 精度向上により、近年利用が広まっている「ニューラル機械翻訳」。その仕組みを、自分で動かしながら学んでみましょう。第3回は「JoeyNMT」を音声に対応させて、音声認識や音声翻訳のタスクをエンドツーエンドで解くモデルを構築してみましょう。 ハイデルベルク大学の博士課程に在籍しながら、八楽という会社で「ヤラクゼン」の開発に携わっている太田です。ヤラクゼンは、AI翻訳から翻訳文の編集、ドキュメントの共有、翻訳会社への発注までを1つにする翻訳プラットフォームです。 第2回は、Discordのチャットbotでニューラル機械翻訳を試す方法と「JoeyNMT」のカスタマイズ方法を紹介しました。第3回は「JoeyNMT」を音声に対応させて、音声認識や
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で音声認識の技術開発を担当している木田です。 この年末年始、帰省や旅行でお出かけの際にカーナビを利用される方が多いのではないでしょうか? ヤフーではYahoo!カーナビというサービスを提供していますが、2018年12月に音声によるハンズフリー操作機能が導入されました(2019年12月現在はAndroid版のみ対応)。 今回はその技術の裏側をご紹介します! 写真:アフロ 使い方とシステム構成 それでは、この機能の使い方を説明します。 まずはYahoo!カーナビを起動し、こちらのページに記載している設定を行うことで、ハンズフリー操作が有効になります。 設定ができたら、「ねぇヤフー」と呼びかけてみてください
by Underway In Ireland Microsoftの音声認識アシスタント機能「Cortana」がIPA Technologiesの特許を侵害しているとして2018年から行われてきた裁判で、デラウェア州の連邦陪審は特許侵害を認定し、Microsoftに最大2億4200万ドル(約377億円)の支払いを命じました。 Microsoft hit with $242 million US verdict in Cortana patent lawsuit | Reuters https://www.reuters.com/legal/microsoft-hit-with-242-million-us-verdict-cortana-patent-lawsuit-2024-05-10/ Microsoft to Pay $242 Million in Patent Case Over C
3つの要点 ✔️ Googleが軽量なCNN音声認識モデルを提案 ✔️ squeeze-and-excitationモジュールによってグローバルコンテキストを考慮 ✔️ Progressive Downsamplingによってコンピューティングコストを削減 ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context written by Wei Han, Zhengdong Zhang, Yu Zhang, Jiahui Yu, Chung-Cheng Chiu, James Qin, Anmol Gulati, Ruoming Pang, Yonghui Wu (Submitted on 7 May 2020 (v1), last revi
医療・医薬品業界のオピニオンリーダーとして、1988年創刊「RISFAX」、2000年創刊「医薬経済」を発行しています。毎月1日・15日に公開する「医薬経済ONLINE」 の中から、ダイヤモンド編集部が旬の話題をピックアップして「お届け」します。 医薬経済ONLINE発 独自の切り口で真相を探る。医療・医薬品業界の誰もが知る業界紙!業界のオピニオンリーダーとして、1988年創刊「RISFAX」、2000年創刊「医薬経済」を発行しています。毎月1日・15日に公開する「医薬経済ONLINE」の中から、ダイヤモンド編集部が旬の話題をピックアップして「お届け」します。 バックナンバー一覧 キュア・アップの禁煙治療用アプリ、アップルウォッチの心電図アプリなど、医師と患者をデジタルでつなぐ製品が日本でも相次いで登場している。新型コロナウイルス感染症のパンデミックによって、遠隔診療も事実上解禁されている
現在、音声通話やビデオ通話が可能なサービスは多数存在するのですが、会話の内容を音声認識で字幕表示したり、テキストとして残せるサービスはそれほど多くないように思います。(現状だと英語のみ対応というケースが多い気がします) そのため、音声通話やビデオ通話と併用して利用する事で、日本語での会話内容をテキストで残せるサービスを作ってみました。 ※2020/06/08 追記:サービスの名前変更しました。 skybeje.net 使い方は簡単です。音声通話やビデオ通話をしている状態で 「Talk To CSV」にアクセス(簡易チャットルームが作られます) 上段の「招待URLをコピー」を押し、URLをクリップボードにコピーします。 (招待URLは起動のだびに毎回変わる事に注意してください) 音声通話やビデオ通話の参加者に、そのURLを伝えます。 参加者全員にGoogle Chromeで、そのURLを開い
「パワーブースターON!!」子供の頃の夢は現実となった製作物:mylist/67556116「いいね」に作った感想音声認識システム:sm40179914独立可動サスペンション自動走行バックブレーダー:sm39830574Twitter:https://twitter.com/NiwakaraAgeBGM(再生順)Chime - Lifelong [NCS Release],Elektronomia & RUD - Rollercoaster [NCS Release],RudeLies, Distrion, Alex Skrindo & Axol - Together [NCS Release],Chime & MDK - Arcade Dwellers [NCS Release],Everen Maxwell - A Day at Sea [NCS Release
東京大学は、強誘電体トランジスタ(FeFET)を用いた「リザバーコンピューティング」と呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功した。採用したFeEFTは現行の製造プロセスと親和性が高く、LSIの大規模化も比較的容易とみている。 3つの電流成分の時間応答を組み合わせる方式などを採用 東京大学は2022年6月、強誘電体トランジスタ(FeFET)を用いたリザバーコンピューティングと呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功したと発表した。採用したFeEFTは現行の製造プロセスと親和性が高く、大規模LSIにも比較的対応が容易とみている。 研究グループはこれまで、酸化ハフニウム系強誘電体材料を用いて製造するFeFETを活用したリザバーコンピューティング方式を提案し、その基本動作について確認してきた。ただ、実用化に向けた計算性能の確認や、システム上の課題な
インディースタジオTallBoysは2月12日、シュルレアリスム・アドベンチャー『Militsioner』のゲームプレイ映像を新たに公開した。対応プラットフォームはPC(Steam)。リリース時期は今のところ明かされていない。 『Militsioner』は一人称視点のアドベンチャーゲームだ。プレイヤーは“大いなる敵”の監視をかいくぐって奇妙な街からの脱出を目指すことになる。大いなる敵とは、すなわち文字どおり「巨人」。主人公が囚われた街には、なぜか身の丈数十メートルはあろうかという巨大な警察官が棲みついている。犯した覚えのない罪で牢獄送りが言い渡されたプレイヤーは、上空からの目線に見張られつつ、街を探索して脱出の糸口をつかまなくてはならないのだ。 道を拓くためには身を隠すだけでなく、あえて警察官の注意を引くことが必要な場面も。本作は音声認識機能を搭載しており、プレイヤーは声を発することで警官
日本でメルセデス・ベンツのクルマやブランドは、広く「ベンツ」と呼ばれていますが、今後、この慣習は大きく変わるかもしれません。 【写真】「メルセデス」はこの人 その大きな要因となりうるのが「音声認識」です。2018年10月に日本で発売された「Aクラス」では、クルマがドライバーの呼び掛けに応じて目的地の設定や空調の調整などを行うシステム「MBUX」が装備されました。これを起動させる場合、「ハイ、メルセデス」と呼び掛けると説明されています。 メルセデス・ベンツ日本によると、このシステムは「ハイ、ベンツ」といった呼び掛けでは起動しないそうです。 「『ベンツ』も創業者のひとりの名前ですので、クルマの呼称としては決して間違いではありません。ただ、『メルセデス』は女性の名前に由来し、語感としてもやわらかい印象があり、その名に親しんでいただくためにも、『メルセデス』と呼んでいただけるよう、わたしたちも心掛
「音声認識」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音声認識』を5月20日(木)に発売 インプレスグループでIT関連メディア事業を展開する株式会社インプレス(本社:東京都千代田区、代表取締役社長:小川 亨)は、音声認識の基礎から深層学習を用いた最新手法を解説した書籍『Pythonで学ぶ音声認識』を2021年5月20日(木)に発売いたします。 ■音声認識の基礎から深層学習を用いた最新手法までを解説 音声認識とは、音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、現在までの音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるようになることを目的とし、その手法をソースコード付きで丁寧に解説しています。 本書は「実際に動くものが作れる」ことを目指して、特定の技術のアルゴリズムと、それを実装するた
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、ヤフー独自の音声認識エンジン「YJVOICE」の研究開発を担当している大町です。こちらのブログでも紹介しているように、ヤフーではEnd-to-End(E2E)音声認識の研究開発に取り組んでいます。 今回は、自然言語処理のトップカンファレンスNAACL2021(2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics)で発表した、新しいE2E音声認識の手法を紹介します。より詳しい内容を知りたい方は原論文もご参照ください。 既存のE2E音声認識は、ユーザーの発言意図を特定しにくい
2018年1月より、ブレインパッドが始めているQiita Organization。社員が投稿した「Qiita記事まとめ」として、2020年1月~5月の記事をご紹介していきます! こんにちは。広報の中村です。 ブレインパッドのデータサイエンティスト・エンジニアが投稿する技術トピックをQiita Organizationにまとめています。 qiita.com このブログを執筆している日時点で167記事が投稿されています! 今回は2020年1月~5月に投稿された記事をご紹介します! 日付 タイトル(リンク) カテゴリ 2020.01.02 Google提供のDataflowテンプレートとJavaScriptの話 JavaScript、Google Cloud Platform、gcp、dataflow、ApacheBeam 2020.01.01 Google Cloud Speech API
新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 発売日:2020年9月30日 人気のFire TV Stickが前のモデルよりも50%パワフルになって新登場、HDRの鮮明な映像に対応しています。 【Amazon】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 【楽天市場】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 我が家には以前のFireTVStickがあります。 Fire TV Stick - Alexa対応音声認識リモコン付属 【Amazon】Fire TV Stick - Alexa対応音声認識リモコン付属 商品詳細 Fire TV StickをHDMI端子対応のテレビに挿してWi-Fiにつなぐだけで、簡単に映画やビデオをテレビの大画面で楽しむことができます。 映画、ドラマ、バラエティ、スポーツ、
最近では「Google Home」や「Amazon Echo」など、AIスピーカーがたくさん登場しています。「今日の天気はどうなる?」や「今のタイミングにピッタリな曲をかけて」などと音声で命令するだけで、自動でユーザーの音声を処理して適切な答えを返してくれます。このときに使われているのが音声認識の技術です。 音声認識を利用して議事録を自動化するなど、音声認識を利用したサービスは私たちの日常の至るところで目にします。例えば「Android」のスマホを持っている場合は、「Google音声検索」を活用している方も多いのではないでしょうか。しかしさまざまな音声認識サービスを手軽に利用できるにもかかわらず、音声認識の仕組みについてはよく知らない、という方も多くいらっしゃるのではないでしょうか? そこで今回は音声認識の仕組みやAIを活用した音声認識で実現できることなど、音声認識についてさまざまな観点か
はじめに こちらの記事はZennにも投稿しています。 たまたまTLで見かけたので試してみました。結果から言うとすごく簡単、触っていておもしろかったです。 What is Vosk? 20言語以上に対応した音声認識ツールキット。言語モデルが50MBと軽く、組み込みがしやすいです。1 PythonはもちろんのことNode.jsやJava, C#でも実装可能。ラズパイ/iOS/Android用のビルド、Websocketサーバまで用意されているという準備の良さです。 なおM1 Macには非対応です。 詳しくは Vosk のリファレンスで。 サンプル音声の準備 まずは音源の準備をします。フリーの素材がないかと探していたところ こえやさん と言うサイトを見つけたので今回はこちらのファイルを拝借。 Voskのページをみると、しれっと以下のような記載があったのでffmpegで変換します。 When us
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く