タグ

音声認識に関するendo_5501のブックマーク (12)

  • クラウドの音声認識APIはライターの「文字起こし」に使えるか? ライターたちが実際のインタビューの録音データで評価してみた

    クラウドの音声認識APIはライターの「文字起こし」に使えるか? ライターたちが実際のインタビューの録音データで評価してみた ライターの仕事のなかでも手間がかかるのが、インタビューや講演などの録音データを聞きながら逐一正確に文字にしていく、いわゆる「文字起こし」と呼ばれる作業です。 この作業が高度化するクラウドの音声認識APIを使って自動化できたなら、どんなに楽か。多くのライターがそう夢見ていることでしょう。僕もそうです。 もちろんそれはライターの仕事だけでなく、会社の議事録や講演録などにも応用できるでしょうから、そのインパクトは非常に大きいものでしょう。 そこで、僕は現時点で音声認識API文字起こしの用途にどれだけ使えるのかを調べるため、クラウド関連の開発で有名な「ハンズラボ」さんと一緒に音声認識クラウドAPIを評価するプロジェクトを立ち上げました。 この経緯については9月27日の記事「

    クラウドの音声認識APIはライターの「文字起こし」に使えるか? ライターたちが実際のインタビューの録音データで評価してみた
  • クラウドの音声認識APIで、ライターにとって実用的な「文字起こしサービス」は作れるのか?

    文章を書く仕事をしている多くのライターが苦手にしている作業のひとつに、かつて「テープ起こし」と呼ばれ、いまは「文字起こし」と呼ばれるものがあります。 これは取材やインタビューを行う際に録音したものを聞き返して、逐一正確に文字にしていく作業なのですが、とにかく単調で集中力が必要です。僕はこの作業が苦手ですぐ集中力が切れてしまうので、たとえば60分のインタビューの文字起こしをしようとすると、だいたいその3倍以上の時間がかかることを覚悟しなければなりません。 ある日、たまたま後輩と一緒にインタビューの仕事をしているときに、後輩が僕にこう言いました「新野さん、もし文字起こしを自動でやってくれるソフトがあったら僕は100万円出してもいいですよ」と。 まったく同感でした。この先ずっと、必要な時にいつでも機械がその場で自動的に文字起こしをしてくれるのなら、100万円ぐらい払ってもいい(僕もたまにクラウド

    クラウドの音声認識APIで、ライターにとって実用的な「文字起こしサービス」は作れるのか?
    endo_5501
    endo_5501 2017/09/30
    人の発話自体がかなりいい加減ってのも大きいよな
  • 雑音の中でも…AIが複数の人の会話聞き分けて書き起こし リアルタイムで議事録作成OK NTTが開発

    NTTは、大きな雑音の中でも必要な音声を認識して正確に書き起こすことができる人工知能(AI)技術を開発した。複数の人の会話を発言者ごとに聞き分けることも可能で、会議の議事録をほぼリアルタイムで作成することができるようになるという。1〜2年後の実用化を目指す。 人の言葉を理解して学習するAIにとって音声認識は重要な技術で、雑音はその大敵となっている。雑音を除去しようとすると、必要な音声も変質してしまい正確に認識できなくなるという課題があった。 NTTは、音の大きさや方向などから認識すべき音声と雑音を自動的に推定し高精度で識別するアルゴリズム(手順)を開発。必要な音声をひずませることなく、雑音だけを低減させる技術を確立した。必要な音声が聞き取りにくいほどの雑音にも対応できる。 会議などでの複数の人の会話でも、この技術を使い音の方向など空間的情報から発言者の位置を特定。6人程度のやり取りを聞き分

    雑音の中でも…AIが複数の人の会話聞き分けて書き起こし リアルタイムで議事録作成OK NTTが開発
  • 一般向けのDeep Learning

    PFI 全体セミナーで発表した、専門家向けではなく一般向けのDeep Learning(深層学習)の解説です。どのような場面で活躍しているのか、今までの学習手法と何が違うのかを解説しています。

    一般向けのDeep Learning
  • 引越ししたので未来なお部屋を作ってみた。 - お前の血は何色だ!! 4

    年の瀬に引越ししたので、部屋の再構築を行った。 コンセプトは快適に引き篭もれる未来の部屋。 その紹介をしたいと思う。 図面 一部省略の図面、古い建物なのでちょっと広い。 10m2 * 2部屋ぐらい。 何度か検討を繰り返してこの形式に落ち着いた。 カーテンを100インチのディスプレイにしてみた カーテンレールに100インチのスクリーンを釣り下げてみた。 カーテンが支えられるんだから、100インチのスクリーンぐらい支えられるだろうという発想。 カーテンレールに入れるのにLANケーブル用のマーカータイを使ってみた。 束ねれば結構強固である。 スクリーンの後ろは黒塗りされているので裏写りはないと思うけど、念のための裏写り防止のためと、昼間でも投影できるように暗室を作りたかったので、暗室用のブラックカーテンを後ろに引いている。 プロジェクターはNECの NP-U310WJD 短焦点プロジェクターを使

    引越ししたので未来なお部屋を作ってみた。 - お前の血は何色だ!! 4
    endo_5501
    endo_5501 2012/08/20
    「カーテンが支えられるんだから、100インチのスクリーンぐらい支えられるだろうという発想」!
  • 2012年10月...あなたのお部屋に未来がやってくる!? 「フューチャーホームコントローラー」登場(動画あり)

    2012年10月...あなたのお部屋に未来がやってくる!? 「フューチャーホームコントローラー」登場(動画あり)2012.08.20 18:00 家中の家電が全て音声認識でコントロールできるって、どーいうこと? まずは公式動画をご覧ください。 おお、全て音声コントロール! まるで魔法のようだ! 未来の技術が実現している! どういう仕組みになっているのかよく分からないのですけど、ホントに音声でコントロールできちゃうんですね。 少し種明かしをすると、rti技研のrti7743さんが自分のブログに今年1月「引越ししたので未来なお部屋を作ってみた。」というエントリーが公開されていて、この時に作った音声認識と部屋の中の家電やPCなどと連携する仕組みをそのまま事業化したとのこと。自分でそういったものを作ってそれを自分の仕事にしちゃうのって、なかなかできないことなんでホントに感心しちゃいます。 全貌は明

    2012年10月...あなたのお部屋に未来がやってくる!? 「フューチャーホームコントローラー」登場(動画あり)
    endo_5501
    endo_5501 2012/08/20
    「気になるお値段は、3万6800円だそうです」 ん、意外とお安い。欲しい!
  • 【OS X Mountain Lion】音声入力でツイートする方法 - ネタフル

    「OS X Mountain Lion」の新機能である音声入力を使い、ツイートする方法をご紹介します。 まず、音声入力の機能を利用するために「システム環境設定」から機能をオンします。 「音声入力」を「入」にします。 このようなダイアログが表示されるので「音声入力を有効にする」をクリックします。 標準の状態では、音声入力を起動するには「Fn(ファンクションキーを2回押す)」になっています。基的にはこれで良いかと思います。 続いて、ツイートするために、ツイッターアカウントを「OS X Mountain Lion」に設定します。 「メール/連絡先/カレンダー」より設定します。 「Twitter」をクリックし、アカウントを設定します。 普段、使用しているID/パスワードを設定すればOKです。 設定が完了しました。 続いて、やはり新機能である「通知センター」を開きます。 ツイッターアカウントを設定

    【OS X Mountain Lion】音声入力でツイートする方法 - ネタフル
  • "iOSより賢い"日本語対応音声認識システムを試す (1/2)

    連載「Apple Geeks」は、Apple製ハードウェア/ソフトウェア、またこれらの中核をなすOS X/iOSに関する解説をあますことなくお贈りする連載です(連載目次はこちら)。 UNIX使い向けをはじめ、Apple関連テクノロジー情報を知りつくしたいユーザーに役立つ情報を提供します。 新Apple TVの噂がまことしやかに流れていますが、モノが出るまでわからぬ/語れぬこの世界、過度の期待は禁物です。とはいえ、Mac miniもこんな感じに進化していますし、何かあるはず。Google TV対抗馬たりうるデバイスに進化するかどうか、要注目といえます。 さて、今回は「音声認識」について。OS X界隈の現状を整理しつつ、オープンソースの日語対応音声認識システム「Julius」(ジュリアス)を利用して、その必要性を検討してみよう。 OS Xにおける音声認識システムの現状 「入力した音声を解析

    "iOSより賢い"日本語対応音声認識システムを試す (1/2)
  • まさに未来。音声による対話型エージェントシステム·MMDAgent MOONGIFT

    MMDAgentは音声認識、応対を行う3Dオブジェクトによる音声インタラクションシステム。 [/s2If] MMDAgentはWindows用のオープンソース・ソフトウェア。コンピュータ技術の進歩もあって、個人のPCでさえリアルなオブジェクトを容易に動かせるようになっている。さらに初音ミクのように滑らかに言葉を発したり、逆に言葉を認識するシステムもできている。 起動した所 音声認識システムとして注目が集まっているのが名古屋工業大学国際音声技術研究所で開発されているMMDAgentだ。マイクを通して音声を認識し、それにあった返答をしたり情報を返却する。そんな未来型の入力デバイスが自分のパソコンで実現する。 MMDAgent(サンプルデータも必要)を立ち上げるとメイと言う秘書のような3Dキャラクターが表示される。矢印キーで視点を入れ替えたり、マウスを追うように動かすこともできる。マウス操作も可

    endo_5501
    endo_5501 2011/01/26
    こういうの大好き!そういや、昔、春菜とか何かと色々あったなあ…
  • 温泉認識用の自然言語を作るとしたら。: 2010-05-01 - IHARA Note

    日の話はたわごとであるが、それなりに面白いような気がするので書く。音声認識とインタフェースに関する話である。 とある人に音声認識についていろいろと聞かれた。その人はほとんど音声認識について技術的な知識がなく、質問は「今どこまで音声認識はできているのか」という抽象的なところから始まった。その後、話はいろいろと飛んだのだが、最後にその人ならではの視点からの質問が来た。こんな質問である。 「パソコンのキーボードはとても打ちづらい配置になっているが、人はそれに適応した。つまり、人が道具に合わせた。音声認識でも人が道具に合わせることは可能なのか? つまり、音声認識に合わせた人工言語を作ることは可能なのか?」 最初私は直感的に不可能だと感じたが、数秒考えて「あるといえばある」ということを答えた。音声認識が苦手なのは、子音と子音に伴う無音区間の扱いである。無音区間というのは単語と単語の間とかいう意味で

    温泉認識用の自然言語を作るとしたら。: 2010-05-01 - IHARA Note
    endo_5501
    endo_5501 2010/05/02
    「音声認識用の自然言語を作るとしたら」一足飛びに言語を作るのではなく、そういった、機械が認識しやすい言葉をキーワードに動くシステム作れたら良いかも
  • キーボードの代わりにiPhoneに話かけて文章入力をする『音声認識メール』-今日のアプリ第388回

    iPhoneに限らず、小さなキーボードに慣れていない人にとっては、 携帯端末でのメール等の文字入力を面倒だと思うに違いありません。 『音声認識メール 』は、iPhoneのマイクからの音声入力を認識して文字に変換し、メール作成の文字入力を極力減らしてくれるアプリです。 アプリは音声認識によって文字を入力する機能に特化し、出来上がった文章をメールアプリに送ることで、キーボードによるメール入力の手間を省いてくれます。 音声認識技術・サービスを提供する株式会社アドバンスト・メディアによって開発されたもので、音声データはサーバー側で処理・テキスト変換されて、アプリ上に反映される仕組みになっています。 音声の入力をするときは、”押しながらしゃべってください“というボタンを押します。iPhoneのマイクから10cmくらい離し、ゆっくりと発声するのが、認識率を高めるコツのようです。 認識された文章は、キー

    キーボードの代わりにiPhoneに話かけて文章入力をする『音声認識メール』-今日のアプリ第388回
    endo_5501
    endo_5501 2009/04/28
    これのtwitter版がほしいぃぃ
  • 大語彙連続音声認識システムJulius

    A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

    大語彙連続音声認識システムJulius
  • 1