世界では今、インプットされたデータから文章や画像などを自動で作り出す「生成AI」の技術が急速に進化しています。こうした中、中国では「生成AI」を使って亡くなった人を「復活」させるビジネスが登場し、論争を…
昨年10月に「OpenAIのエンジン採用で話者認識もできる超高性能なAIボイスレコーダー、AutoMemoはどこまで進化するのか?」という記事で開発者インタビューも行ったソースネクストが展開するAutoMemo。会議を録音すれば簡単に議事録を作ることができるし、われわれライターや編集にとってはインタビューした内容をそのまま文字起こししてくれるという意味で、まさに長年の夢が叶ったシステムであり、もはや手放すことが不可能なほど重要なアイテムになっています。 文字起こし正解率98.9%(※)を誇るという、このAutoMemoは昨年10月以降もアップデートを繰り返し、性能改善を行うとともに、いくつかの新機能を実装してきています。そのひとつがWebアプリ版のAutoMemoに録音機能が搭載されたこと。これによりZoomやTeams、Google Meetなどを使ったオンライン会議の文字起こしも、ハー
The Atlantic誌に「外国語教育の終焉」(The End of Foreign-Language Education)という記事が載っていた。 この記事にもある通り、最近ではAIによって、外国語の文章の翻訳だけではなく、外国語を流暢に話す自分の音声やビデオすら、10ドルもあれば比較的簡単に作ることができる。ようするにディープフェイクだが、試しに作ってみるとなんだか不気味ですらある。自分であって自分でない、確かにシミュラクルだ。 とすると外国語を学ぶモチベーションが落ちるのもやむを得ないところで、記事によれば米国の大学における英語以外の言語コースの総登録者数は、2009年から2021年にかけて29.3%減少したという。オーストラリアでは2021年の高校3年生の8.6%しか外国語を学んでおらず、韓国やニュージーランドでも、外国語学科を閉鎖する大学が相次いでいるそうだ。逆に非英語圏では、
「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の 音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MIMEタイプの制限 ・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。 ・1プロンプト内の音声ファイルの数には制限ない。 ・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオ チャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と
","eos_token":"<|endoftext|>","pad_token":"<|endoftext|>","unk_token":"<|endoftext|>"}},"discussionsDisabled":false,"downloads":1177,"downloadsAllTime":1177,"id":"kotoba-tech/kotoba-whisper-v1.0","isLikedByUser":false,"isWatchedByUser":false,"inference":"Yes","lastModified":"2024-04-22T01:56:19.000Z","likes":27,"pipeline_tag":"automatic-speech-recognition","library_name":"transformers","librariesO
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く