並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 2137件

新着順 人気順

音声認識の検索結果281 - 320 件 / 2137件

  • メタデータによる“右脳の補完”で進む「ネットとリアルの融合」

    ウェブブラウザが登場した1994年。その頃と同じ、あるいはそれ以上の興奮が、世界を席巻しようとしている。「右脳的インターネットの世界」が、すぐそこにまで近づいてきているためだ。 これまで、そのほとんどが論理的思考を軸とした左脳的役割に終始していたパソコンの世界。さまざまな企業が家電製品とパソコンの融合を試みてきたが、結果として成功している事例はほとんどない。米Appleの最高経営責任者(CEO)であるSteve Jobs氏の言葉を借りると、「パソコンはテレビの代用にはならない。テレビを見る時は頭をOFFにしているからだ」ということであろう。 インターネットも例外ではなく、ネットとリアルという対極同士が、今ひとつ融合という意味合いにおいてしっくりこなかったのは、左脳的役割に偏ったネットの特性が、その大きな理由のひとつだったことは間違いない。 ではなぜ、ネットは右脳的役割を果たすことができなか

      メタデータによる“右脳の補完”で進む「ネットとリアルの融合」
    • TechCrunch | Startup and Technology News

      Amazon subsidiary Zoox has begun testing its purpose-built, electric, autonomous robotaxis on public streets in Las Vegas, the company announced Tuesday. Zoox says this marks the first time that an au We are only scratching the surface of how artificial intelligence might be used in art, and musicians are already experimenting with the technology. But if their AI-assisted composition is to be elig

        TechCrunch | Startup and Technology News
      • ChromeとChromiumがあなたの周囲を勝手に録音する機能を突然スタート

        by dorena-wm Google Chromeとその派生元であるChromiumで、「Chrome Hotword」という拡張機能が何の通知もなくインストールされたという告発がありました。 Not OK, Google: Chromium voice extension pulled after spying concerns | Ars Technica http://arstechnica.com/security/2015/06/not-ok-google-chromium-voice-extension-pulled-after-spying-concerns/ Issue 491435 - chromium - Opt-out Chrome Hotword Shared Module - An open-source project to help move the web

          ChromeとChromiumがあなたの周囲を勝手に録音する機能を突然スタート
        • AutoML Vision と RasPi でリビングのいろいろな音を認識する

          Cloud AutoML Vision は、画像とその分類ラベルをクラウドにアップロードするだけで画像認識の機械学習モデルを作成できるサービス。ラーメン二郎のどんぶり画像から 95% 精度で店舗を当てたりできる高性能だけど、機械学習のディープな知識や経験がなくても使える。 で、これでまず試してみたかったのが、音の認識だ。画像じゃなくて音。 2 年くらい前に、画像認識用の CNN を使って音声を認識する論文が Microsoft Research から出てて、へぇーっと思った。スペクトログラムっていう、よく犯罪捜査で出てくる声紋のアレを使って音を画像にして、その模様から音の特徴を認識する。 CNN で音声認識(Microsoft Research)なるほどなあ。。つまり、世の中のどんなデータでも、捉えたい特徴を画像の特徴として表せれば、画像認識で識別できる……ってことだ。 そして、AutoM

            AutoML Vision と RasPi でリビングのいろいろな音を認識する
          • Siriに「サカナクション流して」とお願いしてもサカナクションがかからない人が続出

            iPhone4Sの新CMの中で「サカナクション流して」と言うシーンがあるので、それを試したところ、サカナクションをかけてもらえない事例が多発(直前に聴いていた曲を再生する?)。 サカナクションがかからなあああい流れなあああいららららぁぁぁ! それぞれの音楽生活も垣間見えてなかなか楽しいです。

              Siriに「サカナクション流して」とお願いしてもサカナクションがかからない人が続出
            • TechCrunch

              Happy Saturday, folks, and welcome to Week in Review (WiR), TechCrunch’s newsletter that covers the major stories in tech over the past several days. I feel inclined to begin this edition with a

                TechCrunch
              • Gizmoz.com: Your Gateway to the Future of Technology

                The year may have changed, but your movie streaming experience shouldn’t. You must always have an…

                • 言い間違いも直してくれるGoogleの「音声文字変換」、かなり使える

                  Googleが早期アクセス版として公開した音声をリアルタイムで字幕にして表示する「音声文字変換」アプリを使ってみました。多少滑舌が悪くても意味が通るよう解釈してくれ、書籍タイトルなどもばっちり正しく表示してくれます。 最近の音声テキスト変換技術はすごいです。昔は決算発表後の電話会見がテキスト化されて公開されるのはライブ配信から4日後くらいだったのに、今では数時間後には公開されます。YouTubeの字幕も、Googleの公式チャンネルのものとかであれば、公開の段階で字幕が付いています。 Googleさんが2月4日に発表したAndroidアプリ「Live Transcribe」(日本では「音声文字変換」)の早期アクセスに申し込んでおいたら、11日にインストールできました。Google Playストアにも未公開版として公開(?)されています。 音声文字変換アプリは、文字通り、音声を文字にリアルタ

                    言い間違いも直してくれるGoogleの「音声文字変換」、かなり使える
                  • Webアプリに高機能な音声認識を追加するWeb Speech API - Kesinの知見置き場

                    Microphone' by Juan_Alvaro, http://www.flickr.com/photos/31590610@N03/5408706936/ CC by 2.0 最近、にわかに音声認識というものが盛り上がっています。 スマートフォンに搭載されている、AppleのSiri、NTTドコモのしゃべってコンシェル、Googleの音声検索あたりが有名ですが、お掃除ロボやエアコン、カーナビといった家電にも音声認識機能が搭載されるようになってきました。 認識の精度や意識の問題(人前で機械に話しかけるのはちょっと恥ずかしい)などの課題はありますが、音声認識はアプリや家電のUIの一部としてこれから普及していくと思われます。 ですが、一般の開発者にとって音声認識機能を自分のアプリやウェブサイトに組み込むのはまだまだ難しいです。 Juliusのようなオープンソースの音声認識システムもありま

                      Webアプリに高機能な音声認識を追加するWeb Speech API - Kesinの知見置き場
                    • API Reference (Bing, Version 2)

                      Explore Azure Get to know Azure Discover secure, future-ready cloud solutions—on-premises, hybrid, multicloud, or at the edge Global infrastructure Learn about sustainable, trusted cloud infrastructure with more regions than any other provider Cloud economics Build your business case for the cloud with key financial and technical guidance from Azure Customer enablement Plan a clear path forward fo

                      • リモコンはオワコン。音声認識でお部屋の家電を操作してみた。 - 凹みTips

                        はじめに 本エントリは未来のお部屋シリーズの第4弾です。 本シリーズでは、音声認識システムの Julius と TCP/IP 通信で制御できる赤外線学習リモコン iRemocon を繋いで音声認識による家電操作の実現を目指しています。 ついに!音声認識でお部屋の家電を操作できましたので、ご紹介します。 環境 Ubuntu 10.04 Boost 1.48.0 gcc version 4.6.1 20110617 (prerelease) (GCC) Julius grammar-kit-v4.1 iRemocon 集音マイク×2 (2分岐) 構成 動作構成は以下になります。 マクロ実行部は iRemocon 以外の何か操作も出来るようにしようと思ってますが、未実装です。 ソースコード 各ソースコードは github に上げました。 https://github.com/hecomi/Jul

                          リモコンはオワコン。音声認識でお部屋の家電を操作してみた。 - 凹みTips
                        • “任天堂の忍者”島田健嗣氏が語る「脳トレ」の音声・手書き認識システム開発の裏側

                          【9月29日】 NCジャパン、「エヌ・シー・ジャパンが行く! in大阪」開催 有料の付加サービス「トッピングサービス」を10月21日に実装 人類未踏の地で謎の未確認生物を追え! ディースリー・パブリッシャー、DS「THE 秘境探検隊」 セガ、プラチナゲームズとの共同プロジェクト第1弾 DS「無限航路」2009年春発売決定 スマイルラボ、WIN「Nicotto Town」正式サービス開始 スクエニとニフティが結束したカジュアルなバーチャルワールド サイバーステップ、「ゲットアンプド2」オフラインイベントを開催 会場とオンライン75人が戦うトーナメント、座談会で大きく盛り上がる セガ、「東京ゲームショウ2008」出展情報公開 昨年を上回る数のステージイベントを開催 コーエー、「東京ゲームショウ2008」出展情報 「ネットエンターテインメント フェスタ」を今年も開催 セガ、DS

                          • 声優の声を分類してみた - Qiita

                            まだ終わらない。 ここから手作業でコーナーの切り替わりシーンの部分とか、音楽流すコーナーとか、他の人の声が入ってる部分とかを手作業で削除していった。 ただ、バックで小さな音楽が常に流れているのはもうどうしようもないので無視。 このバックの音の影響を最小限、もしくは無くすにはどうすればいいんだろうか・・。 とりあえず、これでデータ収集は完了! 2.データから特徴量を抽出する 周波数強度を特徴量にしたらいいんじゃない?高速フーリエ変換だ!となるが、 オライリーから出てる実践機械学習システムにはそれよりメル周波数ケプストラム係数(MFCC)ってやつを使った方がいいよ!と書いてたので今回はそっちを使うことにする。 色々見てみたところ、現在の音声認識ではMFCCが代表的な特徴量として用いられていて、人間の音声知覚の特徴を考慮してるらしい。 しかし、MFCCにはピッチの情報が含まれないようだ。 ケプス

                              声優の声を分類してみた - Qiita
                            • YouTube、日本版の事業戦略を発表--ミクシィや吉本らもパートナーに:ニュース - CNET Japan

                              Googleは8月2日、日本におけるYouTube事業の説明会を開催した。 壇上には、ミクシィや吉本興業をはじめ、YouTubeと手を組んだパートナー企業がずらりと並んだ。 2005年初頭にサービスを開始して以来、YouTubeの勢いはとどまることを知らない。Googleによる買収を経て、2007年6月には日本語を含む10カ国でローカライズ版サービスをリリース。現在は動画サービスにおいて50%以上の市場シェアを誇る。 またYouTubeの視聴数は毎日数億に上り、アップロードされる動画の数は1日数十万本、1分間に約6時間分の動画がアップロードされているという。 Googleでコンテンツホルダーとのパートナーシップおよび提携を統括する担当副社長 David Eun氏はYouTubeの現状について、「多くの機会を持つと同時に責任もある」と述べる。 そして、同社がYouTube事業を推進するにあた

                                YouTube、日本版の事業戦略を発表--ミクシィや吉本らもパートナーに:ニュース - CNET Japan
                              • TechCrunch

                                Kyle Kuzma is a lot of things. He’s a forward for the Washington Wizards NBA team and a 2020 NBA champion. He’s also a style icon — depending on who you ask — and an angel investor. No

                                  TechCrunch
                                • ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう

                                  家電量販店に行くと今でもボイスレコーダーのコーナーがあり人気だ。またスマートフォンにも必ずボイスメモアプリがある。筆者も一時期アイデアをボイスメモで録り溜めていた。しかし、ボイスメモは聞き直す必要があり管理が面倒という欠点もある。そこで、今回はPythonからMicrosoftのAPIを利用して自動的にボイスメモをテキストに変換する方法を紹介しよう。 WAVファイルを音声認識してテキストに変換したところ 音声認識APIを使ってみよう AI技術の進歩により音声認識の精度が向上している。これまでも音声認識の技術はあったものの精度が今一歩だった。そして個人ユーザーが気軽に活用できる感じではなかった。ところが、最近では、各社が競い合うように音声認識の精度向上に力を入れている。各社から発売されているAIスピーカーを積極的に活用している読者も多いことだろう。 そして、大きな点として、Microsoft

                                    ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう
                                  • 音声認識でかつてNNがHMMに敗北した状況まとめ

                                    音声認識を長年研究されている @akinori_ito 先生が、2000年以前に起こったNNとHMMの競争の流れについてツイートしてくださいました。

                                      音声認識でかつてNNがHMMに敗北した状況まとめ
                                    • i Speech : Text to speech

                                      [[ description ]]

                                      • TechCrunch

                                        Induction cooking has the potential to liberate us to rethink the kitchen, but new designs have been slow to arrive.

                                          TechCrunch
                                        • 汎用知的音声合成システム ボイスソムリエ:日立ビジネスソリューション

                                          たとえば、自分で作った文章をアナウンサーが読み上げてくれる。草野球のスターティングメンバーをウグイス嬢がアナウンスしてくれる。 こんな夢を実際にかなえてくれるパソコンソフトが汎用知的音声合成システム「ボイスソムリエ」です。

                                          • 音声認識ソフトを作ろう

                                            「音声認識」そのものは素人には敷居が高いテーマですが,肝心の「認識」の部分については マイクロソフトから音声認識用のSDKが無償で提供されていますので, 「音声認識をしてなにかするソフト」を作ること自体はそう難しいことではありません。 音声認識で動作するソフトが自作できるようになると,声で動くゲームを作ったり, ロボットに声で指令を与えたり,家電を声でコントロールしたりと,いろいろ夢が広がります。 今回はそのSDKのインストールと,サンプルプログラムのいじり方,音声認識エンジンのカスタマイズ の仕方などについて紹介したいと思います。 これを読んで得られるもの ここに書いてある内容をそのままやれば, Windowsで,マイクからの音声入力を使って何かするプログラムが作れるようになる 『ドラゴンボール』など任意の単語も認識できるようになる はずです。 実験を行った基本ソフトウェア環境 今回のコ

                                            • 自然言語処理ツール

                                              自然言語処理の研究で役立つツールを集めてみました。 音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。 言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法(Knese

                                              • ほぼ無音の「吸った声」で音声認識 マイクロソフト研究 - ITmedia NEWS

                                                「音声入力は楽だが、人前で話すのは恥ずかしいし聞かれたくない」――こんな問題を解決してくれるかもしれない、新しい音声認識技術を米Microsoft Researchが10月5日(現地時間)に発表した。ひそひそ声よりも小さな声での音声認識を可能にする。 「サイレントボイス」と名付けられたこの技術は、一般的な「息を吐いての発声」ではなく、「息を吸っての発声」から音声を認識する。 通常の発声では声帯を震わせて空気を振動させ、声道や鼻腔などで共鳴して声になる。ひそひそ声も声帯こそ震わせないが、声帯の狭い隙間を通る際にノイズ音を発生させ、通常の声と同様の経路を通って声となる。 一方の息を吸う「サイレントボイス」では、マイク付きのプレートを唇に当てることで、唇とプレートの間の狭い隙間から息を吸う際に発生するひそひそ声のような音を認識する。 サイレントボイスの利点は大きく2点。息を吐く発声と違い、ポップ

                                                  ほぼ無音の「吸った声」で音声認識 マイクロソフト研究 - ITmedia NEWS
                                                • 音声認識の株式会社アドバンスト・メディア

                                                  声で書く、声で動かす 人と機械の新しいコミュニケーション 「AmiVoice」は、業界シェアNo.1※の 音声認識エンジンです

                                                  • Speech-to-Text Webcam Overlay

                                                    *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

                                                      Speech-to-Text Webcam Overlay
                                                    • 長文日記

                                                        長文日記
                                                      • 音声認識システム Julius を使って twitter に投稿する ruby スクリプト - Λάδι Βιώσας

                                                        最近、急に自分の周辺で非技術者の人から twitter の話題を聞くことが多くなりました。うーんツイッター流行ってきてるんだなー、じゃなんかネタスクリプトでも書いてみよっかな、、、と30秒ほど考えて「リアルにつぶやいた内容を音声認識してツイッターにポストするか」と思いつきました。 が、しかし、誰でも思いつくことは同じで、あちこちで似たような事をしている人がいたので、やっぱやめるかと思ったものの、クリスマスで暇だし、Mac OSX上でやってる人は見つけられないしで、勢いで音声入力システムの Julius を利用したツイッター投稿スクリプト書いてみました。ちなみに環境は、Mac OSX 10.5.8 + ruby 1.8.7 です。 音声認識システム Julius のインストール まず Julius の cvs から最新のソースをダウンロードしてコンパイル&インストールします。インストール先は

                                                          音声認識システム Julius を使って twitter に投稿する ruby スクリプト - Λάδι Βιώσας
                                                        • AlexaでE2Eテストを書けるようにした話 - クックパッド開発者ブログ

                                                          研究開発部の伊尾木です。 研究開発部では、Alexaのスキルを公開しています(Google Assistantも公開していますよ!)。 今回はAlexaスキルのテストを便利にするKuchimaneというツールを公開したので紹介したいと思います。 E2Eテストが難しい 音声UIの開発はまだまだ新しい分野で知見やツールがそろっているわけではありません。 特に E2E (End To End) テスト、RSpecでいうところの Feature spec に相当するようなテストを行うことがとても困難でした。 AlexaでのE2Eテスト 以下のような一連の会話があったとします。 あなた「クックパッドを開いて」 Alexa「クックパッドへようこそ」 あなた「大根のレシピを教えて」 Alexa「大根ですね。サラダ、ナムル、スープのどのレシピがいいですか」 あなた「スープ」 Alexa「大根のスープですね

                                                            AlexaでE2Eテストを書けるようにした話 - クックパッド開発者ブログ
                                                          • Amazon.co.jp: フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで: 荒木雅弘: 本

                                                              Amazon.co.jp: フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで: 荒木雅弘: 本
                                                            • Googleが音声翻訳で話者の声を保ったまま翻訳させる画期的なシステム「Translatotron」を発表

                                                              by rawpixel.com Googleが、人が話した内容を本人の声を保ったまま音声翻訳してくれる「Translatotron(トランスラトトロン)」について詳細を明かしました。従来モデルとは異なるエンドツーエンドモデルを採用した画期的なシステムとなっており、音声翻訳の未来を切り開くものと考えられています。 Google AI Blog: Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html これまでの音声翻訳では、まず話者が話した内容が自動音声認識により文章として起こされ、そこから機械翻訳を通して音声出力を行うという形が採られていました。

                                                                Googleが音声翻訳で話者の声を保ったまま翻訳させる画期的なシステム「Translatotron」を発表
                                                              • superwhisperでの音声入力を試す

                                                                superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                                                  superwhisperでの音声入力を試す
                                                                • 「Zoom」の文字起こし機能が無料アカウントでも利用可能に ~会議前の双方向チャット機能も/参加者が自由にスライドを制御できる設定も追加

                                                                    「Zoom」の文字起こし機能が無料アカウントでも利用可能に ~会議前の双方向チャット機能も/参加者が自由にスライドを制御できる設定も追加
                                                                  • ReazonSpeech - Reazon Human Interaction Lab

                                                                    ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                                                                    • “誰が、何を”話したのか、会議内容を自動的に記録するアプリ 重要点まで賢く識別 | Techable(テッカブル)

                                                                      ビジネスにおいて会議は付き物だが、会議が好きだ、という人はあまりいないだろう。わざわざメンバーが集まって、長時間に渡り話し合いをしたものの、結局何が決定されたのかはっきりしない……なんていうことも多い。議事録を残すのも一苦労だ。 そこで一役買いそうなのが、「Gridspace」というアプリケーション。「Gridspace」には、機械学習と自然言語解析のテクノロジーが搭載されており、会議の内容を自動的に記録し、会話をインデックス化して管理できるという優れものだ。 これらの機能によって、「誰が」「何を」話したのかを判別することができ、しかも、会議の会話の中で、どの部分が最も重要であるのか、ディスカッションのハイライトは何なのかを自動的に拾い出して、各ダッシュボードにまとめてリスト化する。ユーザーは会議内容を、特定のワードや人物などで検索したりできるほか、コメントを残すことも可能。 この「Gri

                                                                        “誰が、何を”話したのか、会議内容を自動的に記録するアプリ 重要点まで賢く識別 | Techable(テッカブル)
                                                                      • グーグル、喋って検索できるiPhoneアプリ本日公開(デモあり)

                                                                        Another week, and another round of crazy cash injections and valuations emerged from the AI realm. DeepL, an AI language translation startup, raised $300 million on a $2 billion valuation;…

                                                                          グーグル、喋って検索できるiPhoneアプリ本日公開(デモあり)
                                                                        • クラウドの音声認識APIはライターの「文字起こし」に使えるか? ライターたちが実際のインタビューの録音データで評価してみた

                                                                          クラウドの音声認識APIはライターの「文字起こし」に使えるか? ライターたちが実際のインタビューの録音データで評価してみた ライターの仕事のなかでも手間がかかるのが、インタビューや講演などの録音データを聞きながら逐一正確に文字にしていく、いわゆる「文字起こし」と呼ばれる作業です。 この作業が高度化するクラウドの音声認識APIを使って自動化できたなら、どんなに楽か。多くのライターがそう夢見ていることでしょう。僕もそうです。 もちろんそれはライターの仕事だけでなく、会社の議事録や講演録などにも応用できるでしょうから、そのインパクトは非常に大きいものでしょう。 そこで、僕は現時点で音声認識APIは文字起こしの用途にどれだけ使えるのかを調べるため、クラウド関連の開発で有名な「ハンズラボ」さんと一緒に音声認識クラウドAPIを評価するプロジェクトを立ち上げました。 この経緯については9月27日の記事「

                                                                            クラウドの音声認識APIはライターの「文字起こし」に使えるか? ライターたちが実際のインタビューの録音データで評価してみた
                                                                          • Open JTalk

                                                                            What is Open JTalk? Open JTalk is a Japanese text-to-speech system. This software is released under the Modified BSD license. Getting Open JTalk Open JTalk version 1.11 (25 December, 2018) NEW! The Japanese text-to-speech system. It works in Linux machines. Documentation Source Code Dictionary for Open JTalk version 1.11 (25 December, 2018) NEW! If you cannot compile dictionary, you can use compil

                                                                            • Engadget | Technology News & Reviews

                                                                              Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

                                                                                Engadget | Technology News & Reviews
                                                                              • Amazon、「Alexa」の音声記録の一部を従業員が聞いていると認める──Bloomberg報道

                                                                                AmazonのAIアシスタント「Alexa」との会話の一部が、機能改善のために専任従業員が聞いていると、Bloombergが報じた。Amazonはこれを認め、聞いているのはごく一部の録音で、個人は特定できないと語った。 米Amazon.comでは、AIアシスタント「Alexa」の改善のために、ユーザーとAlexaとの会話のごく一部をサンプルとして聞き、アノテーション(タグ付け)していると、米Bloombergが4月11日(現地時間)に報じた。Amazonはこれを認め、顧客のプライバシーを守るために慎重に行っていると語った。 Bloombergによると、Amazonには会話のアノテーション専任の従業員が各言語ごとに数千人いて、1人につき1日当たり1000件前後の録音を処理しているという。録音ではユーザーの名前や住所などの個人情報は分からないようになっている。また、専任従業員はNDA契約を結ん

                                                                                  Amazon、「Alexa」の音声記録の一部を従業員が聞いていると認める──Bloomberg報道
                                                                                • しゃべった内容、リアルタイムで字幕化して映像に合成 ビデオ会議が便利になるシステムに注目集まる

                                                                                  ビデオ会議やネット発表会が増える中、話した内容をリアルタイムで字幕化してWebカメラ映像に合成するシステムを開発する人が現れて注目を集めています。 開発したのは筑波大学大学院修士課程の鈴木一平(@1heisuzuki)さん。カメラとマイクをオンにしてGoogle ChromeからWebサイトにアクセスすると、話したことをリアルタイムで音声認識してWebカメラの映像に字幕として表示します。 話した内容がリアルタイムで字幕に カメラ表示やグリーンバック表示のありなしなども設定可能(サイトは随時アップデートしているとのこと) ブラウザの画面をキャプチャーしたり共有したりしてビデオ会議ツールに表示すると、字幕付きで会議に参加することが可能。音声認識結果のログをダウンロードすることもできます。ソースコードはGitHubで公開されています。 鈴木さんが公開したデモ映像では、話している内容がかなりの速さ

                                                                                    しゃべった内容、リアルタイムで字幕化して映像に合成 ビデオ会議が便利になるシステムに注目集まる