並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 21 件 / 21件

新着順 人気順

音声認識の検索結果1 - 21 件 / 21件

  • ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」

    チキン@ライター @HeroofChickens フリーランスのライター4年目。リストラがきっかけ。Kindle出版1位、Kindleプロデュースで1位・ベストセラー取得。商業出版のブックライティング中(2024年の5月ごろ出版かな?) webwhiter-skill.com/job/

      ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
    • 「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】

        「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】
      • ChatGPTのアプリ版すごくね!?

        モバイルアプリ版に実装されてる音声入出力機能が無課金ユーザーにも開放されたってニュースを見て貧乏人の俺は早速ダウンロードしたわけね。 英会話の練習に使えるみたいなニュースを見てたから興味津々でトライしたわけよ。 そしたらまあ俺の英語力では話すのも聞き取るのもままならず、到底使いこなせる”域”に達してねえなこりゃ、と早々に自分に失望したよ。 はあ、アンインスコするか・・・と思いながら設定ちょろちょろ弄ってたら「Speach」の欄にMain Languageって項目があって、そこがAuto-Detect(自動検出)になってたんよね。 あっこれのせいか!俺の英語力が悪いからじゃなかったんだと思って、Englishに切り替えてもう一回やってみたわけ。 そしたら案の定結果は変わらずさらに落ち込んだ。 で、もうどうでもいいやと思いながら日本語で適当に話しかけたんだよ。 そしたら! なぜか俺が日本語で話

          ChatGPTのアプリ版すごくね!?
        • 文字起こしアプリで伝言ゲーム

          1971年東京生まれ。デイリーポータルZウェブマスター。主にインターネットと世田谷区で活動。 編著書は「死ぬかと思った」(アスペクト)など。イカの沖漬けが世界一うまい食べものだと思ってる。(動画インタビュー) 前の記事:影だけ悪魔の人になりたい > 個人サイト webやぎの目 ルール 肉声で喋る→アプリで文字起こし→その結果をiPhoneで読み上げ→ 別のアプリで文字起こし → また読みあげ → またまた別のアプリで文字起こし …を繰り返す。 そうして文章がずれていくさまを楽しもう。

            文字起こしアプリで伝言ゲーム
          • 新・必須ガジェット。テレワークのストレスを全部解決してくれました

            新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀 もう手放せない。 最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。 さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭

              新・必須ガジェット。テレワークのストレスを全部解決してくれました
            • さようならCortana──Copilot登場でMicrosoftがサポート終了へ

              米MicrosoftはサポートページでWindowsでのCortanaのサポート終了を告知した。「2023年後半以降、WindowsではスタンドアロンアプリとしてCortanaはサポートされなくなります」となっている。 2014年に「Windows Phone 8.1」の新機能としてデビューしたCortanaは、米Appleの「Siri」対抗の音声アシスタントと目されていた。その後、Windows 10のタスクバーで利用できるようになったが、Windows 11ではタスクバーから消えていた。 Microsoftが5月に開催したBuild 2023で発表した「Windows Copilot」は、Cortanaよりはるかに高機能なアシスタントなので、Cortanaの役目が終了になっても当然だろう。 MicrosoftはCortanaのWindowsでのサポート終了時期について具体的にはまだ発表

                さようならCortana──Copilot登場でMicrosoftがサポート終了へ
              • 「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024

                「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis

                  「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024
                • superwhisperでの音声入力を試す

                  superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                    superwhisperでの音声入力を試す
                  • 【山田祥平のRe:config.sys】 AIがもたらす同時通訳の新しい当たり前

                      【山田祥平のRe:config.sys】 AIがもたらす同時通訳の新しい当たり前
                    • ゲームキャラの制作時間9割減 声色の感情、表情に反映 - 日本経済新聞

                      システム開発のCACホールディングスはこのほど、人工知能(AI)による感情解析でゲーム制作を効率化するサービスを始めた。声優が吹き込んだセリフの感情をAIが解析してCG(コンピューターグラフィックス)に自動反映させ、キャラクターに表情をつける制作にかかる時間を最大9割ほど削減できるとうたう。国内外のゲーム会社に売り込むとともに、メタバース(仮想空間)の領域への応用もめざす。ゲームの制作支援サー

                        ゲームキャラの制作時間9割減 声色の感情、表情に反映 - 日本経済新聞
                      • macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能に。

                        macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能になりました。詳細は以下から。 Appleは2020年にApple Siliconを搭載したMacを発表以降、Apple SiliconのNeural Engineを利用した「音声入力(Dictation)」機能を強化し、現在Apple Siliconを搭載したMacでは、多くの言語で音声入力リクエストはオンデバイスで処理されるようになっていますが、 Appleシリコンを搭載したMacでは、一般的なテキストの音声入力リクエスト(例えば、メッセージやメモの作成は含まれますが、検索ボックスへの音声入力は含まれません)は多くの言語についてデバイス上で処理され、インターネット接続は必要ありません。また、音声入力できるテキストの長さに制限はなく、タイムアウトもありません。 Macでメッセージや書類を音声

                          macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能に。
                        • Introducing a foundational multimodal model for speech translation

                          Today, we’re introducing SeamlessM4T, a foundational multilingual and multitask model that seamlessly translates and transcribes across speech and text. SeamlessM4T supports: Automatic speech recognition for nearly 100 languagesSpeech-to-text translation for nearly 100 input and output languagesSpeech-to-speech translation, supporting nearly 100 input languages and 35 (+ English) output languagesT

                            Introducing a foundational multimodal model for speech translation
                          • NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表!AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト

                              NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表!AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト
                            • iOS18のAI新機能!ボイスメモでの文字起こしと要約をデバイス上で完結 - iPhone Mania

                              iOS18の新機能として、iPhone純正の「ボイスメモ」アプリで、人工知能(AI)を活用した文字起こしと内容の要約機能が追加される、と米メディアAppleInsiderが報じています。クラウドにデータを送信せずデバイス上で動作するので、機密情報を含む会議も安心して要約できそうです。 iOS18の「ボイスメモ」で録音、文字起こし、要約が可能に iOS18の「ボイスメモ」アプリで、録音した音声の文字起こしと、その内容の要約が可能になる、とAppleInsiderが事情に詳しい複数の関係者から得た情報として伝えています。 AIによる文字起こしと要約機能は、6月の世界開発者会議(WWDC24)で発表予定のiOS18のほか、iPadOS18、macOS15でも使用可能になる見込みとのことです。 iOS18の「ボイスメモ」アプリでは、画面配置が既存のものから大きく変更され、文字起こし結果が画面の中央

                                iOS18のAI新機能!ボイスメモでの文字起こしと要約をデバイス上で完結 - iPhone Mania
                              • iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。

                                iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポートされています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し「iOS 17.4/iPadOS 17.4 Build 21E219」を正式にリリースしましたが、このiOS/iPadOS 17.4ではAppleのポッドキャストアプリで文字起こし機能が追加サポートされています。 文字起こし機能により、英語、スペイン語、フランス語、およびドイツ語でオーディオと同時にテキストがハイライト表示されエピソードを追うことが可能 リリースノートより Appleによると、ポッドキャストアプリの文字起こし機能は、本日より最新のエピソードに文字起こししたテキストが追加され、過去のエピソードも今後順次文字起こし処理さ

                                  iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。
                                • Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。

                                  Appleが新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー充放電回数や製造日表示などを追加した「iOS/iPadOS 17.4」を正式にリリースしています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し新しい絵文字やポッドキャストアプリの文字起こし機能などを実装した「iOS 17.4 Build 21E219」および「iPadOS 17.4 Build 21E219」アップデートを正式にリリースしたと発表しています。 このアップデートでは、新しい絵文字とApple Podcastでの文字起こしが導入され、iPhoneでのその他の機能、バグ修正、およびセキュリティアップデートも含まれます。 リリースノートより抜粋 iOS/iPadOS 17.4では

                                    Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。
                                  • Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性:Gurman氏 - こぼねみ

                                    Appleは今年のWWDCで「Hey Siri」の「Hey」を省くという大きな変更を発表する可能性をBloombergのMark Gurman氏がツイートしています。 Siri単に「Hey」をなくすだけなので、わずかな変化のようにもみえますが、決してそうではなく、この変更は技術的な挑戦であり、相当量のAIトレーニングと根本的なエンジニアリング作業を必要となるとGurman氏は以前報告していました(関連記事)。 というのも「Hey Siri」にはSiriが複数の異なるアクセントや方言で「Siri」という単一のフレーズを理解できるようにすることが含まれており、「Hey Siri」という2つの単語があることで、システムが正しく信号を取得する可能性を高めることができるからです。 AppleがWWDCで発表する見込みのMRヘッドセットは音声コントロールを搭載すると噂されており、Siriの改良は新デバ

                                      Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性:Gurman氏 - こぼねみ
                                    • Whisperで文字起こしする方法(ローカル環境にDockerを添えて)

                                      音声のテキスト変換 Web上にいくらでも情報があるWhisperでの文字起こしです。API使うとお金がかかるので、ローカル環境でDocker使って(Docker使えれば)手軽に実行できるのが特徴です。 CPUでもGPUでも動きます。Apple SiliconMacでもLinuxでも多分Windows(WSL2)でも動きます。 Dockerファイルや使うソフトはGitHubのリポジトリに公開しています。 この記事は上記リポジトリの自分のための使い方のメモです。 使い方 ファイル準備 文字起こしする音声ファイルを用意します。ここではinput.mp3とします。 Docker準備 Dockerがない人は、Dockerをインストールしましょう。LinuxかWindows(WSL2)なら、とりあえず以下コマンドを実行すればOKです。Macの人はDockerデスクトップを使いましょう。 $ curl

                                        Whisperで文字起こしする方法(ローカル環境にDockerを添えて)
                                      • `large-v3` release · openai/whisper · Discussion #1762

                                        We're pleased to announce the latest iteration of Whisper, called large-v3. Whisper-v3 has the same architecture as the previous large models except the following minor differences: The input uses 128 Mel frequency bins instead of 80 A new language token for Cantonese The large-v3 model is trained on 1 million hours of weakly labeled audio and 4 million hours of pseudolabeled audio collected using

                                          `large-v3` release · openai/whisper · Discussion #1762
                                        • whisper、whisper.cpp、faster-whisperの比較

                                          現状のwhisper、whisper.cpp、faster-whiperを比較してみたいと思います。 openai/whisperに、2022年12月にlarge-v2モデルが追加されたり、色々バージョンアップしていたりと公開からいろいろと進化しているようです。 CPU向けにC/C++で書かれたバージョンです。Core ML supportだそうですので、Mac向け感が強いです。 CTranslate2でWhisperモデルの書き直して、オリジナルと同等の精度で4倍速く、メモリ使用量も少ないそうです。 以降、すべてGoogle Colabで実行しています。 サンプルは、アナウンスの音声(WAV)の場合(48秒)を試しました。 結果 faster-whisperのGPUは噂通り爆速でした。 本家whisperはCPUが速いです。GPUでも初期に比べて85.62s → 23.9sに高速化してま

                                            whisper、whisper.cpp、faster-whisperの比較
                                          • chatGPTとwhisperで議事録作成APIを作ってみた(備忘録)

                                            はじめに 本記事では、議事録作成の自動化を目的としてOpenAIのChatGPTとWhisperのAPIを組み合わせたワークフローを紹介します。このワークフローでは、まず会議の録音データをWhisperで文字起こしし、その後、ChatGPTを用いて要約を行います。 使用したコードはこちらで共有しています:GitHubリポジトリ ワークフロー ワークフローの概要です。詳細は後述します。 Whisper周りの工夫 25MBのファイル容量上限 Whisper APIは25MBのファイル容量上限があります。そのため容量の大きい動画であれば音声のみを抽出し、音声の圧縮をするなどの対応が必要があります。 では、25MBは具体的にどのくらいの録音時間に相当するのでしょうか?4G音声の電話のビットレート(12.65kbps)を基準にすると、およそ4.4時間の録音が可能です(参考記事)。今回のデモでは、最大

                                              chatGPTとwhisperで議事録作成APIを作ってみた(備忘録)
                                            1