家電量販店に行くと今でもボイスレコーダーのコーナーがあり人気だ。またスマートフォンにも必ずボイスメモアプリがある。筆者も一時期アイデアをボイスメモで録り溜めていた。しかし、ボイスメモは聞き直す必要があり管理が面倒という欠点もある。そこで、今回はPythonからMicrosoftのAPIを利用して自動的にボイスメモをテキストに変換する方法を紹介しよう。 WAVファイルを音声認識してテキストに変換したところ 音声認識APIを使ってみよう AI技術の進歩により音声認識の精度が向上している。これまでも音声認識の技術はあったものの精度が今一歩だった。そして個人ユーザーが気軽に活用できる感じではなかった。ところが、最近では、各社が競い合うように音声認識の精度向上に力を入れている。各社から発売されているAIスピーカーを積極的に活用している読者も多いことだろう。 そして、大きな点として、Microsoft
AIを活用した技術の進歩。革新。 幅広いサービスの利用が、当たり前になった昨今、 これからの私たちが、提供できる価値とはいったい何か。 それは、DeNA × AIだからできる 「人」と「テクノロジー」が、組み合わさった未来です。 DeNA × AIが持つ 「意図や思いを汲み取った、質の高い発想力」、 「多岐にわたる経験を元にした、AI、データサイエンスの実践力」、 「複雑なシステムの開発、安定した稼働ができる技術力」など。 それぞれの強みを組み合わせることで、 まだどこにもない「モノづくり」や「コトがら」を、生み出していきます。 ともに、技術の向上を。 ともに、革新の追求を。 ともに、今よりも豊かな未来を。 さあ、DeNA × AIと 新しいモノづくりを一緒に。
Microsoftが、誰が何を話したのかリアルタイムで文字化して記録してくれる、無料の文字起こしアプリ「Group Transcribe」を公開していたので、実際に使ってみました。 「Group Transcribe」をApp Storeで https://apps.apple.com/jp/app/group-transcribe/id1527145885 iOS端末でApp Storeにアクセスして「Group Transcribe」を入手します。 インストールするとアプリの説明画面が4枚表示されます。「次へ」をタップするか、右へスワイプして進めていきます。 最後の説明画面で「始めましょう。」をタップ。 利用規約が表示されるので「承認」をタップ。 表示名と言語を入力します。 言語はプルダウン式メニューになっていて、かなり多数の言語が用意されています。ここで設定された言語をベースに文字起
Microsoft、文字起こしアプリ「Group Transcribe」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcribe(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う
Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように2020.01.08 07:0043,581 Victoria Song - Gizmodo US [原文] ( 塚本直樹 ) iPhone…はまだか。 Pixel 4とともにGoogle(グーグル)から発表された、新たな「Recorder」アプリの書き起こし機能。オフラインモードでもガリガリスピーチを文字化できる超便利なこの機能は現在Pixel 4/3/2にて利用できるわけですが、とうとう非公式ながら他のAndroidスマートフォンでも使えるようになりました! XDA-Developersに投稿された改造版のRecorderアプリでは、Pixelシリーズと同じく、リアルタイム/オフラインでのスピーチ書き起こしが可能です。動作にはAndroid 9/10を搭載したAndroidスマートフォンが必要で、Huawei(ファー
Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。
やりたいこと・方針 TensorFlowを使って日本語文字データ→音声データへの変換を学習させたい。 1.教師データのサンプルを作成する 2.生成された学習データの特性を確認、加工する 3.文字データ→音声データへの変換を学習させる 4.学習結果を使用して文字データ→音声データ変換を試す 5.少ない教師データ数、短い学習時間で効率的に学習させる方法を考える やっていることは、音声読み上げソフトと同じことです。 音声加工の知識を全く持たない自分でも、機械学習に頼れば似たような仕組みを真似できるのか?という興味から始まっています。 学習データに関しては、音声加工についての知識などもっておりませんので、機械学習のゴリ押しでなんとかする方針です。 音韻長など処理済みのデータを教師にしたほうが間違いなく高効率ですが、そういった処理済みのデータを大量に用意する方法も思いつかないですし、1データずつ人間
この記事は ジーズアカデミー Advent Calendar 2018 の2日目の記事です。 はじめに 音声自動文字起こし機能をたった17行のスクリプトコードで実装してみます。 自動文字起こしがあれば、議事録係が不要になったり、無駄な作業が減るので良いですよね。 自作すればアレンジも簡単に出来るようになるのでオススメです。 成果物 startボタンを押すと、話した内容を自動で文字起こししてくれます。 script内のコードはこちらです。 ぴったり17行です。 <script> const speech = new webkitSpeechRecognition(); speech.lang = 'ja-JP'; const btn = document.getElementById('btn'); const content = document.getElementById('conte
Googleがクラウドサービスとして提供している「Google Cloud Platform」の中に、「Cloud Speech-to-Text」というサービスがあります。このサービスは音声ファイルをAIが認識して文字にしてくれるというものなのですが、一体AIはどれくらい正確に文字起こししてくれるものなのか実際に使って試してみました。 Cloud Speech-to-Text - Speech Recognition | Cloud Speech-to-Text API | Google Cloud https://cloud.google.com/speech-to-text/ まず、GoogleのクラウドサービスであるGoogle Cloud Platformの登録を済ませておきます。まだ登録していないという人は以下の記事の冒頭部分を参考に登録しておいてください。 無料でGoo
文字起こしは、記事をつくる上で大事な工程のひとつ。 でも取材が終わった瞬間に、取材に行く前にやっていた“すぐにやらなければいけない仕事”をやったり、他の人から頼まれたタスクをやっているうちに、文字起こしがどんどん後回しになって億劫に。それなら、早いうちにクラウドワークスに出した方が効率がいいなと思って、ここ最近はそうしていました。 ・・・ そんなとき、こんなツイートを目にして、文字起こしを自動化できるかもしれない…!と思い、さっそく試してみました。 紹介されていたのは、「SoundFlower」と「Google Docs」の2つのツール。 ■ SoundFlower : https://github.com/mattingalls/Soundflower/releases ■ Google Docs : https://docs.google.com/ SoundFlowerの導入について
自己紹介 じゅんじゅんというニックネームで、関西を拠点に活動しているフロントエンドエンジニアです。 HAL大阪の2回生です👍 (2016.10.24現在) よくstart up系イベントに行くので、大阪らへんの方は会いましょう! 音声認識と音声合成 今回は、Web Speech APIとDOCOMO雑談APIを使って音声だけで雑談をしたいと思います。 まずWeb Speech APIですが 音声認識は SpeechRecognitionインターフェース経由で使用出来ます。これは入力された音声(通常はデバイスのデフォルト音声認識サービス経由)から文脈を認識し、適切に対応する機能を提供します。通常は、SpeechRecognition オブジェクトを生成するためにインターフェースコンストラクタを使用します?これはデバイスのマイクから入力された音声を検知するための複数のイベントハンドラを持ちま
AppleのSiriやGoogleのOK Googleの様に音声コマンドで様々な機能を操作する事が可能になっています。「ブラウザでも似たようなこと出来ないかな」と以前より思っておりました。 そこでHTML5の音声認識API - Speech Recognition API を利用して、ブラウザの要素を音声で操作してみました。 APIのサポート状況は現在のところChromeとAndroid Chromeのみです。caniuse.com - Speech Recognition API 音声認識の基本操作 W3Cのドキュメント - Web Speech API Specification - W3Cにこの様なサンプルが書かれています。 <textarea id="textarea" rows=10 cols=80></textarea> <button id="button" onclick=
どうも、まさとらん(@0310lan)です。 みなさんは、音声認識を活用していますか? 例えば、iOSの「Siri」と会話してみたり、Androidなら「OK Google」と喋って検索した経験があるのではないでしょうか? 今回は、このような音声認識を利用し、PCのChromeブラウザに喋りかけることで動作するサンプルデモのチュートリアルをご紹介しようと思います! ■音声認識に必要なAPIとは? まず最初に必要なのが、自分の「声」を音声として認識してくれるAPIなのですが、実はPCのChromeブラウザであれば今すぐJavaScriptから利用できるようになっています。 Web Speech API:ブラウザ対応状況 「Web Speech API」を使うことで、特別なツールをインストールしたり、余計なライブラリを読み込む必要は無いわけです。 ちなみに、このAPIには大きく分けて「音声認識
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く