mp3・wavの相互変換(pydub) Pythonモジュール「pydub」では、sound.exportメソッドで音声ファイルの形式(拡張子)を変換できます。 インストール(pip) pip install pydub サンプルコード サンプルプログラムのソースコードです。 ■wav→mp3 # -*- coding: utf-8 -*- import pydub sound = pydub.AudioSegment.from_wav("input.wav") sound.export("output.mp3", format="mp3") ■mp3→wav # -*- coding: utf-8 -*- import pydub sound = pydub.AudioSegment.from_mp3("input.mp3") sound.export("output.wav", for
家電量販店に行くと今でもボイスレコーダーのコーナーがあり人気だ。またスマートフォンにも必ずボイスメモアプリがある。筆者も一時期アイデアをボイスメモで録り溜めていた。しかし、ボイスメモは聞き直す必要があり管理が面倒という欠点もある。そこで、今回はPythonからMicrosoftのAPIを利用して自動的にボイスメモをテキストに変換する方法を紹介しよう。 WAVファイルを音声認識してテキストに変換したところ 音声認識APIを使ってみよう AI技術の進歩により音声認識の精度が向上している。これまでも音声認識の技術はあったものの精度が今一歩だった。そして個人ユーザーが気軽に活用できる感じではなかった。ところが、最近では、各社が競い合うように音声認識の精度向上に力を入れている。各社から発売されているAIスピーカーを積極的に活用している読者も多いことだろう。 そして、大きな点として、Microsoft
Web会議が増えた今、議事録作成に時間がかかっていませんか?今回は、TBSテレビが開発した文字起こしエディタ「もじこ」を実際に使ってみた使用感をレポートします。文字起こしサービスを比較したい方や「もじこ」に興味がある方は是非ご活用ください。 TBSテレビが開発した文字起こしエディタ「もじこ」 もじこは、TBSテレビが開発した「文字起こしエディタ」です。放送局では日々、多くの文字起こしが行われていますが、文字起こしは地獄です。この地獄を劇的に変えるツールとしてもじこは開発されました。活用事例は、TBSやMBSなどのJNNネットワーク各局、活字メディア、会議の議事録作成などさまざまなシーンが挙げられます。 また技術面でも高く評価され、「日本民間放送連盟賞 優秀賞」「映像情報メディア学会 進歩開発賞」「日本映画テレビ技術協会 技術開発賞」を受賞、映像・放送業界における技術部門三冠を達成している議
レバレジーズのデータ戦略室で室長をしている阪上です。今回はレバレジーズの運営するメディアの取材における課題について紹介したいと思います。 課題 レバレジーズが運営しているメディアで取材が数多く行われているのですが、取材音声の文字起こしをこれまで人手のみで行なっていました。1時間の取材の場合、1時間以上に文字起こしに時間がかかったりするため、記事を書く上での重要な情報資源ながら、人に対する負担が大きい状態でした。そこで、現場の悩みを解決したいと思いました。 仕組みの説明 まず、求められる要件を以下の通りです。 求められる要件 文字起こしをして欲しい。 Googleドライブにアップロードしたら自動で文字起こしされ、結果もGoogleドライブに返して欲しい。 文字起こし結果を一定の文字数で改行して欲しい 朝の8時から夜の21時までは処理を受け付けて欲しい、1~2時間以内に処理結果が欲しい 様々な
AIを活用した技術の進歩。革新。 幅広いサービスの利用が、当たり前になった昨今、 これからの私たちが、提供できる価値とはいったい何か。 それは、DeNA × AIだからできる 「人」と「テクノロジー」が、組み合わさった未来です。 DeNA × AIが持つ 「意図や思いを汲み取った、質の高い発想力」、 「多岐にわたる経験を元にした、AI、データサイエンスの実践力」、 「複雑なシステムの開発、安定した稼働ができる技術力」など。 それぞれの強みを組み合わせることで、 まだどこにもない「モノづくり」や「コトがら」を、生み出していきます。 ともに、技術の向上を。 ともに、革新の追求を。 ともに、今よりも豊かな未来を。 さあ、DeNA × AIと 新しいモノづくりを一緒に。
内容をメモる必要なし! 電話の内容を録音&文字起こしするAIアプリ「コネクト」2021.05.10 10:0026,541 岡本玄介 後になって「アレ何だっけ?」がなくなりそう。 電話で喋ったやり取りが、テキスト・メッセージのような文字の吹き出しで表示され、その音声も録音されるので後から内容を確認しやすい、AI通話アプリ「コネクト」が開発されました。 作ったのは、ソフト開発を行なう株式会社アトラスコネクト。これがあれば、上司や取引先と話した内容など、大事な情報を失念することがなくなります。 Video: Jay Jang/YouTubeタグ付けもできて管理がラクテキストはAIによりリアルタイムで文字起こしされ、終了後すぐに見返すことができます。そして通話データはタグも付けられ、後から検索や管理ができるというスグレモノ。「電話業務が難しい理由は通話内容が記録されないから」…という原因をこれで
3,850円(本体 3,500円+税10%) 品種名書籍 発売日2021/5/20 ページ数352 サイズB5変形判 著者 高島遼一 著 ISBN 9784295011385 「音声認識」とは音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるまでを目的とし、手法の目的やアルゴリズムの概要を解説、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。特に手法の概要については「その手法は何を目的として生み出されたのか」という経緯と「なぜその手法は前述の目的を達成できるのか」について直感的に理解できるよう工夫しています。 目次を見る
Microsoftが、誰が何を話したのかリアルタイムで文字化して記録してくれる、無料の文字起こしアプリ「Group Transcribe」を公開していたので、実際に使ってみました。 「Group Transcribe」をApp Storeで https://apps.apple.com/jp/app/group-transcribe/id1527145885 iOS端末でApp Storeにアクセスして「Group Transcribe」を入手します。 インストールするとアプリの説明画面が4枚表示されます。「次へ」をタップするか、右へスワイプして進めていきます。 最後の説明画面で「始めましょう。」をタップ。 利用規約が表示されるので「承認」をタップ。 表示名と言語を入力します。 言語はプルダウン式メニューになっていて、かなり多数の言語が用意されています。ここで設定された言語をベースに文字起
Microsoft、文字起こしアプリ「Group Transcribe」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcribe(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う
When Joanna Strober was around 47, she stopped sleeping. While losing sleep is a common symptom of perimenopause, she first had to go to multiple providers, including driving 45 minutes out of San Fra The Federal Trade Commission hit Razer with a $1.1 million fine Tuesday. The order claims that the gaming accessory maker misled consumers by claiming that its flashy Zephyr mask was certified as N95
ユーザーローカルは11月19日、AIが人間の声を分析し、その中に含まれる感情を7種類に分類するサービスを無償公開した。同社が実験でアニメのせりふを分析したところ、「ドラゴンボール」に登場する孫悟空の「クリリンのことかーっ!」は怒りが36.8%、嫌悪が21.3%だったという。 感情の度合いを数値化したり、グラフ化したりできる。まずはPCブラウザ(Google Chrome、Firefox、Microsoft Edge)向けの専用サイトで提供し、今後はWeb APIのリリースも検討する。 検出できる感情は「平穏」「幸福」「怒り」「悲しみ」「恐怖」「嫌悪」「驚き」。利用者が専用サイトで声を録音するか、オーディオファイル(MP3・WAV)をアップロードすると、AIが音声を分析。これらの7種類に分類し、その度合いを数値化する。 アニメのせりふを使った他の実験では、「鬼滅の刃」に登場する我妻善逸の「雷
ソースネクストは、大ヒット製品であるAIを使った音声翻訳機「POCKETALK(ポケトーク)」の技術を活かした、「タブレットmimi」および「AutoMemo(オートメモ)」などの新製品を発表した。 2020年11月10日、都内で開催された新製品発表会は、新型コロナウイルス感染症の感染防止のため、オンラインでも同時配信された。 ■ポケトークテクノロジーを利用した新製品 ソースネクスト株式会社 代表取締役社長 松田憲幸氏は、同社のIoT戦略について語った。 松田憲幸氏 「ポケトークテクノロジーの応用として翻訳だけでなく、そこで使われているさまざまなパーツ。たとえば、『文字にする』だけでも新たなIoT製品になるので、今後どんどんやっていこうと思っています。」 こう語り、AIボイス筆談機「ポケトークmimi」を例にとり、音声を認識してテキストで表示するだけでも、難聴者にとって有用なツールになるこ
ボイスコマンドといえばSiri、Google Home、Alexaなどが有名です。スピーカーやスマートフォンに語りかけるだけでアクションしてくれるのは、一度慣れると手放せません。他にももっと音声だけで操作できれば便利なのにと思ってしまうでしょう。 そこで使ってみたいのがArtyom.jsです。WebサイトでJavaScriptベースの操作ができるようになります。 Artyom.jsの使い方 Artyom.jsのコードです。特定のワードに対して反応し、それに対するアクションを定義できます。 Artyom.jsでは聞く方はもちろん、発話も可能です。つまり音声認識した結果に対して、発話で対応もできます。さらに認識する内容はワイルドカードを使った定義もできるので、ある単語を翻訳したり、どこどこに移動するといった指定も可能です。 Artyom.jsはJavaScript製のオープンソース・ソフトウェ
オルツテクノロジーズは、会議議事録を自動で文字起こしを行う「AI GIJIROKU(AI議事録)」の提供を開始した。 「AI GIJIROKU」とは、同社のグループ企業であるオルツの研究チームによるAI要素技術を駆使し、録音音声の書き起こしや手書きメモを再度手入力することが基本であった会議の議事録を、リアルタイムにテキストデータ化するサービス。 会議参加者の音声を自動で録音・記録し、音声認識によりリアルタイムで会議内容をテキスト化し、精度の高い話者分離機能を搭載しているため、会議参加者が増えた場合でもはっきりと発言者を判断するという。 会議終了後には、テキストデータを共有することも可能。 また、音声認識にミスがあった場合、その都度入力し直しの手間が発生していたが、「AI GIJIROKU」では、話者の音声データを蓄積し、機械学習の学習素材とすることで、オルツ研究チームの成果である、「パーソ
Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように2020.01.08 07:0036,736 Victoria Song - Gizmodo US [原文] ( 塚本直樹 ) Tags : テクノロジー企業グーグルスマートフォンAndroid iPhone…はまだか。 Pixel 4とともにGoogle(グーグル)から発表された、新たな「Recorder」アプリの書き起こし機能。オフラインモードでもガリガリスピーチを文字化できる超便利なこの機能は現在Pixel 4/3/2にて利用できるわけですが、とうとう非公式ながら他のAndroidスマートフォンでも使えるようになりました! XDA-Developersに投稿された改造版のRecorderアプリでは、Pixelシリーズと同じく、リアルタイム/オフラインでのスピーチ書き起こしが可能です。動作にはAndroid 9/10
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く