並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 101件

新着順 人気順

文字起こしの検索結果1 - 40 件 / 101件

  • iPhoneで日本語のリアルタイム文字起こしができる「WhisperAX」

    AI関連企業のArgmaxは4月5日現在、OpenAIの音声認識AI「Whisper」を利用した文字起こしアプリ「WhisperAX」のベータ版を公開している。対応機種はiPhone、Apple Silicon搭載Macと、Apple Watch Series 9/Ultra 2。アップルのテスト環境提供アプリ「TestFlight」から試用可能だ。

      iPhoneで日本語のリアルタイム文字起こしができる「WhisperAX」
    • 「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入!の顛末記】

        「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入!の顛末記】
      • 新・必須ガジェット。テレワークのストレスを全部解決してくれました

        新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀 もう手放せない。 最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。 さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭

          新・必須ガジェット。テレワークのストレスを全部解決してくれました
        • 「AIでの音声書き起こし」はどこまで進化したのか【西田宗千佳のイマトミライ】

            「AIでの音声書き起こし」はどこまで進化したのか【西田宗千佳のイマトミライ】
          • 議事録作成時間が8割減 「オートメモ」に要約機能

              議事録作成時間が8割減 「オートメモ」に要約機能
            • 「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】

                「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】
              • 録音の文字起こし超ラクで仕事のやり方に変化。私生活はひたすら運動した【私の2023】 - 家電 Watch

                  録音の文字起こし超ラクで仕事のやり方に変化。私生活はひたすら運動した【私の2023】 - 家電 Watch
                • Metaが日本語音声を入力するだけで文字起こしなどが可能なAI「SeamlessM4T」の改良版「SeamlessM4T v2」をリリース

                  Metaが2023年8月に公開したAI「SeamlessM4T」は、音声を入力するだけで文字起こしや別言語への翻訳、別言語への吹き替えが可能です。さらにMetaは2023年11月30日に、SeamlessM4Tの改良版となる「SeamlessM4T v2」を発表しました。この「SeamlessM4T V2」では、SeamlessM4Tのパフォーマンスを向上させているだけでなく、感情やスタイルを維持しながら、別の言語へ吹き替えを行うことも可能です。 Introducing a suite of AI language translation models that preserve expression and improve streaming https://ai.meta.com/blog/seamless-communication/ Seamless Communication T

                    Metaが日本語音声を入力するだけで文字起こしなどが可能なAI「SeamlessM4T」の改良版「SeamlessM4T v2」をリリース
                  • 神アイテム! 録音・文字起こし・要約が一瞬で完了するChatGPT連携AIボイスレコーダー

                    神アイテム! 録音・文字起こし・要約が一瞬で完了するChatGPT連携AIボイスレコーダー2023.11.06 17:00Sponsored by PLAUD, Nicebuild LLC 中川真知子 「生産性爆上がり」に偽りなし。 打ち合わせや会議の議事録、取材のまとめやインタビューの文字起こし…。私たちの毎日は、インプットして、まとめて、アウトプットしての繰り返しです。 私は、ボイスレコーダーで録音した音声をAI文字起こしサービスに流し込んで、文字起こしまでは自動化しています。そのため、ある程度の効率化を図れていると思いますが、もっともっと楽がしたい。1分でも時短したい…。 そう思っていたとき、応援購入サービス「Makuake」で発見したのが「PLAUD NOTE(プラウドノート)」。「録音→文字起こし→要約作成」を自動で完了させてくれる、ChatGPT連携のボイスレコーダーです。 実

                      神アイテム! 録音・文字起こし・要約が一瞬で完了するChatGPT連携AIボイスレコーダー
                    • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                      自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                        自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                      • 「議事録作成にAIを使った自動文字起こしが便利すぎる!! なので操作をもっと簡単にしてみた」――急遽テレワークを導入した中小企業の顛末記(159)【急遽テレワーク導入!の顛末記】

                          「議事録作成にAIを使った自動文字起こしが便利すぎる!! なので操作をもっと簡単にしてみた」――急遽テレワークを導入した中小企業の顛末記(159)【急遽テレワーク導入!の顛末記】
                        • 1991年の山下達郎インタビューに見る根深い孤立感と不信感 - YAMDAS現更新履歴

                          少し前に、以下のツイートを目にした。 For You がリリースされた頃、山下達郎は今のようにリスペクトされる存在ではなく、一般リスナーにとっては「流行り物」で、頭でっかちの音楽好きにとっては「チャラチャラした音楽」と捉えられていたことは、ポップミュージックの受容の歴史としてきちんと記録に残しておいた方がいいと思う。— Andy@音楽観察者 (@andymusicwatch) May 14, 2023 当時のミュージックマガジンのレビューでの評価が典型的ですよね。 https://t.co/Rvj2l5r2pE— Andy@音楽観察者 (@andymusicwatch) May 14, 2023 このあたりについて参考になる山下達郎のインタビューを参照してみたいと思う。 というわけで、1989年から2004年まで読者だった rockin' on のバックナンバーを引っ張り出す「ロック問はず

                            1991年の山下達郎インタビューに見る根深い孤立感と不信感 - YAMDAS現更新履歴
                          • Whisperで文字起こしをした文章をChatGPTでいい感じにする

                            Whisperで文字起こしした文章をいい感じにしたい 注:あくまで個人的な使用を前提とした文字起こしの方法の紹介です。許可なく、他人のコンテンツを全部文字起こしして公開すると、著作物の改変などの問題になる可能性があると思います タイトル通りです。 Whisperで文字起こしをしました。 ただ、以下のように句読点がない文章になってしまい、読みづらいです。 樋口 世界の歴史キュレーションプログラム コテンラジオ樋口 世界の歴史キュレーションプログラム コテンラジオパーソナリティーの株式会社ブック代表樋口清則 です深井 そして株式会社コテンの深井 隆之介です樋口 そして株式会社コテンの楊 英史です樋口 このラジオは歴史を愛し歴史 の面白さを知りすぎてしまった深井さんを代表とする株式会社 コテンのお二人と一緒に学校の授業ではなかなか学べない国内外 の歴史の面白さを学んじゃおうという番組ですよろしく

                              Whisperで文字起こしをした文章をChatGPTでいい感じにする
                            • Whisperで文字起こしする方法(ローカル環境にDockerを添えて)

                              音声のテキスト変換 Web上にいくらでも情報があるWhisperでの文字起こしです。API使うとお金がかかるので、ローカル環境でDocker使って(Docker使えれば)手軽に実行できるのが特徴です。 CPUでもGPUでも動きます。Apple SiliconMacでもLinuxでも多分Windows(WSL2)でも動きます。 Dockerファイルや使うソフトはGitHubのリポジトリに公開しています。 この記事は上記リポジトリの自分のための使い方のメモです。 使い方 ファイル準備 文字起こしする音声ファイルを用意します。ここではinput.mp3とします。 Docker準備 Dockerがない人は、Dockerをインストールしましょう。LinuxかWindows(WSL2)なら、とりあえず以下コマンドを実行すればOKです。Macの人はDockerデスクトップを使いましょう。 $ curl

                                Whisperで文字起こしする方法(ローカル環境にDockerを添えて)
                              • ポッドキャストをAIで書き起こし「LISTEN」 近藤淳也氏が立ち上げ

                                AIを使ってポッドキャスト番組を自動で文字起こしするサービス「LISTEN」β版を、はてな創業者の近藤淳也氏が公開した。 OpenAIが提供する書き起こしAPI「Whisper」を使い、配信済みのポッドキャストの内容を文字起こしして公開する。テキストを指定してその部分から音声を再生することもできる。 番組にコメントを書き込んだり星を付けて出演者と交流する機能も備えた。 約20人のポッドキャスターが既に登録しており、徐々に拡大していく。 Discordコミュニティでユーザーからのフィードバックなどを受け付けている。 関連記事 OpenAI、「ChatGPT API」と企業向け専用容量プランの提供開始 「gpt-3.5-turbo」も発表 OpenAIは「ChatGPT API」と「Whisper API」の提供を開始した。ChatGPT APIの価格は1000トークン当たり0.002ドル。A

                                  ポッドキャストをAIで書き起こし「LISTEN」 近藤淳也氏が立ち上げ
                                • 出来栄えはほぼ完璧!ワンクリック起動で手軽な文字起こしアプリ「toruno」【今日のライフハックツール】 | ライフハッカー・ジャパン

                                  音声認識・文字起こしアプリが人気です。無料・有料含め、すでに多くのアプリがリリースされており、ざっと数えただけでも20を超えます。 筆者の場合、メールや記事を書く際は「Win+H」で立ち上がる、Windows OSに備わっている機能を重宝しています。音声認識の精度が飛躍的に向上したのはつい最近のことですが、おかげでキーボード入力が減らせて便利。 一方、取材で録音したインタビューの書き起こしは、もっぱら「notta」を使用しています。こちらは有料で、月額使用料は2000円。1年分の一括払いでは40%オフとなり、月あたり1200円の金額となります。 ICレコーダーで録った音声ファイルはインポート機能で、オンライン取材では、リアルタイムでテキスト化できます。 ワンクリックで起動する手軽さ「toruno」さて、今回紹介するのは、それらとはやや別のコンセプトで開発された、リコーの「toruno(トル

                                    出来栄えはほぼ完璧!ワンクリック起動で手軽な文字起こしアプリ「toruno」【今日のライフハックツール】 | ライフハッカー・ジャパン
                                  • 音声文字起こし技術で業務効率化: Google Text to Speech と OpenAI Whisper の活用 - STORES Product Blog

                                    こんにちは、CTO室技術基盤グループの id:hogelog です。 STORES Product Blog でも多くの文字起こし記事がありますが、社内重要会議の文字起こしなど STORES 社内には様々なところで音声の文字起こし業務が存在します。そんな文字起こし業務ですが完全に人力で実施するのは作業コストがかなり高いです。今日はそのような業務を効率化する音声文字起こし技術とその変遷について紹介します。 Google Text to Speech の活用 以前 論より動くもの.fmを支える技術 〜Podcast初心者が使っているツール紹介〜 - STORES Product Blog でも紹介しましたが STORES 社内では Google Text to Speech が STORES 社内の様々な文字起こし業務に活用されてきました。 product.st.inc Google Text

                                      音声文字起こし技術で業務効率化: Google Text to Speech と OpenAI Whisper の活用 - STORES Product Blog
                                    • whisper.cppで文字起こしをやってみた - oinume journal

                                      自分の備忘録としてのやってみた系の話。OpenAIが提供するモデルを使って文字起こしをするC++実装のwhisper.cppを試してみた。 環境 Apple M1 MacBook Air 2020 (Memory 16GB) uname -a Darwin hogehoge.local 22.3.0 Darwin Kernel Version 22.3.0: Mon Jan 30 20:39:35 PST 2023; root:xnu-8792.81.3~2/RELEASE_ARM64_T8103 x86_64 whisper.cppのビルド 以下のコマンドを実行してビルドする。 git clone https://github.com/ggerganov/whisper.cpp.git cd whisper.cpp make ビルドが成功すると、カレントディレクトリに main という名

                                        whisper.cppで文字起こしをやってみた - oinume journal
                                      • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                                        会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                                          文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                                        • OpenAIのWhisper APIの25MB制限に合うような調整を検討する | DevelopersIO

                                          一般的にはAACはMP3より後継ですので、AACの方が高効率で圧縮できると考えられます。 (同等ビットレートで高音質) AACとOpus, Vorbisは比較が難しそうですが、音源ファイルの特性やビットレート設定によっても優劣は変わってきそうです。 今回はffmpegやPydubで安定動作しそうなAAC-LC(M4A)を採用したいと思います。 (ffmpegのOpus対応はexperimentalのようで、設定がうまく反映されないケースがありました) フォーマット : M4A (AAC-LC) なお、HE-AACはSBRありのため原音に無い成分が生成される可能性があるため、今回は検討しないこととします。 設定するビットレート 今回はデータを25MB以下に調整することで目標を達成したいため、以下の流れでビットレート(kbps)を計算します。 データの時間長X [sec]を計算 使えるデータ量

                                            OpenAIのWhisper APIの25MB制限に合うような調整を検討する | DevelopersIO
                                          • Whisperのlarge-v2モデルを30倍早く処理できる、Gladiaをすぐ試せる方法|Sangmin Ahn

                                            こんにちは、Choimirai Schoolのサンミンです。 【主なアップデート】 (2023.02.23)YouTube動画に特化したnoteへのリンクを追加 【書いた📝】 Whisperの文字起こしを30倍も早く処理させる方法をまとめたnote(👉https://t.co/LCCS1SQQEw)です。今すぐ試せる @GoogleColab Notebookへのリンクあり。1時間のYouTube動画がダウンロードを含め、3分あれば書き起こしができる📺。しかも、日本語にも対応していて無料👏! https://t.co/MoxkuOR1zD pic.twitter.com/FXFt8FjucX — sangmin.eth @ChoimiraiSchool (@gijigae) February 18, 2023

                                              Whisperのlarge-v2モデルを30倍早く処理できる、Gladiaをすぐ試せる方法|Sangmin Ahn
                                            • ジェネレーティブAIで「文字起こし」をリライトさせるとどうなるのか。Easy-Peasy.AIを日本語で使ってみた(西田宗千佳) | テクノエッジ TechnoEdge

                                              1971年福井県生まれ。得意ジャンルは、パソコン・デジタルAV・家電、ネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。 音声の書き起こしはライターにとって夢の技術だ。そのまま原稿にできるわけではないが、インタビュー原稿や取材記事を執筆する上での手間が劇的に減る。筆者はもうずっと昔から、書き起こし系の技術が出るたびに試行錯誤を繰り返してきた。 そんな中に、ちょっとびっくりするようなサービスが現れた。正確にいえば「使ってみたらびっくりするようなものだった」というのが正しいだろうか。 それはいわゆるジェネレーティブAIサービスである「Easy-Peasy.AI」だ。このうち、AIによる音声書き起こしサービス「AI Transcription」を日本語で使ってみた。 結果として、「非常に使えるが、面白い性質がある」こともわかってきた。現在のジェネレーテ

                                                ジェネレーティブAIで「文字起こし」をリライトさせるとどうなるのか。Easy-Peasy.AIを日本語で使ってみた(西田宗千佳) | テクノエッジ TechnoEdge
                                              • Windows版「Word」に文字起こし機能 ~複数話者の識別も可能/まずは「Office Insider」で。段階的に提供範囲を拡大

                                                  Windows版「Word」に文字起こし機能 ~複数話者の識別も可能/まずは「Office Insider」で。段階的に提供範囲を拡大
                                                • KAJI | 梶谷健人 on Twitter: "GlaspっていうChrome拡張機能使うと、YouTube動画からボタン一発でChatGPTにサマリー文章を作ってもらえてとても便利。 DeepLと組み合わせて海外のカンファレンス動画やレクチャー動画も高速で学習できる。 https://t.co/FHSapesC0K"

                                                    KAJI | 梶谷健人 on Twitter: "GlaspっていうChrome拡張機能使うと、YouTube動画からボタン一発でChatGPTにサマリー文章を作ってもらえてとても便利。 DeepLと組み合わせて海外のカンファレンス動画やレクチャー動画も高速で学習できる。 https://t.co/FHSapesC0K"
                                                  • 話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった

                                                    インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。 筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI(人工知能)によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI(オープンAI)の音声認識AI「Whisper」だ。 同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言

                                                      話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった
                                                    • LINE Login

                                                      Log in to CLOVA Note

                                                        LINE Login
                                                      • https://twitter.com/buffett_code/status/1605488460659392514

                                                          https://twitter.com/buffett_code/status/1605488460659392514
                                                        • 自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告

                                                          AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから

                                                            自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告
                                                          • 「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】

                                                              「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】
                                                            • 会議の文字起こし、AIで簡単に 各サービスの実力は デジワザNavi - 日本経済新聞

                                                              人が話した内容を文字に起こす作業は骨が折れる。聞き取れずに何度も繰り返し再生しなければならないなど、録音時間の何倍もかかってしまう場合も。会議の議事録作成を頼まれて、うんざりした経験がある人も多いだろう(図1)。最近は、人工知能(AI)による文字起こしサービスが増えているので、これらを利用するのがお勧めだ。録音データをアップロードすれば、あっという間にテキスト化される。スマホアプリを使って、そ

                                                                会議の文字起こし、AIで簡単に 各サービスの実力は デジワザNavi - 日本経済新聞
                                                              • 【全文】「勝ちっ放しはないでしょう、安倍さん」野田元首相から安倍元首相への追悼演説|日テレNEWS NNN

                                                                2022年10月25日、衆議院本会議。選挙演説中に銃撃され死去した安倍元首相に向けた追悼演説が行われた。演説に臨んだのは、立憲民主党の野田元首相。かつて野党時代の自民党総裁だった安倍氏と、首相だった野田氏は、党首討論の場で、衆議院の解散をめぐる“真剣勝負”に臨んだ間柄だ。追悼演説の中で野田氏は「再びこの議場で、あなたと真剣勝負を戦いたかった」「勝ちっ放しはないでしょう、安倍さん」と天上の故人に語りかけた。演説の全文は以下の通り。 本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。享年67歳。あまりにも突然の悲劇でした。 政治家としてやり残した仕事。次の世代へと伝えたかった想い。そして、いつか引退後に昭恵夫人と共に

                                                                  【全文】「勝ちっ放しはないでしょう、安倍さん」野田元首相から安倍元首相への追悼演説|日テレNEWS NNN
                                                                • PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

                                                                  PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan

                                                                    PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
                                                                  • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                                                                    OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                                                                      音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                                                    • 文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉

                                                                      どうもこんにちは、あんどう(@t_andou)です。 前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。 「Youtubeの」と書いていますが、実際はどの動画でも対応してます。 前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え 上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続 下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロード ここにドラッグ&ドロップでアップできます 大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更 ファイル名に合わせて変更してください 5.全セルを実行 あと

                                                                        文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
                                                                      • OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO

                                                                        こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日は以下の紹介記事を書きました。 今回はもう少し深堀することで、様々な使い方がわかってきたのでシェアしたいと思います。 Whisperでできること APIを使ってできるのは以下になります。 transcribe(書き起こし処理) 音声からの文字書き起こし。 99言語に対応 translate(書き起こし + 翻訳) 音声からの翻訳処理。 入力は多言語に対応していますが、出力は英語のみ。 また内包される機能として、言語判定や有音無音判定(VAD:Voice Activation Detector)があります。 この記事ではそれぞれの使い方を見ていきながら、transcribeの詳細に迫ります。 実行環境 ハードウェアなどの主な情報は以下の通りです。 GPU: Tesla

                                                                          OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO
                                                                        • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                                                                          画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                                                                            無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
                                                                          • ほぼ完璧な文字起こしができるAI音声認識Whisperのインストール

                                                                            「動画・音声の文字起こしを自動で行いたい」 「AIを使って、無料で精度の高い音声認識を試したい」 このような場合には、Whisperがオススメです。 この記事では、ほぼ完璧な文字起こしができるWhisperについて解説しています。 本記事の内容 Whisperとは?Whisperのシステム要件WhisperのインストールWhisperの動作確認 それでは、上記に沿って解説していきます。 Whisperとは? Whisperとは、汎用的な音声認識モデルになります。 Whisperは、OpenAIによって開発されています。 OpenAIと言えば、「DALL・E 2」や「GPT-3」の開発で有名ですね。 そこにWhisperも投入してきたという流れになります。 OpenAIによる、Whisperの紹介ページは以下。 Introducing Whisper https://openai.com/b

                                                                              ほぼ完璧な文字起こしができるAI音声認識Whisperのインストール
                                                                            • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                                                                              OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

                                                                                OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                                                                              • openai / whisper を使ってマイクに話した言葉を文字起こしする Python スクリプトを書いた - Qiita

                                                                                Intro OpenAI が開発した音声認識モデルが日本語を良い感じに認識できるという評判を Twitter 上で見かけました。 文字起こし器が前々から欲しかったので、マイクに話した言葉を文字起こししてくれる Python スクリプトを書きました。 実行してみる 🗣️ < "はい、ということで今日はOpenAIが開発した Whisper について勉強していきたいとおもいます。Whisper は音声認識モデルです。" 実行結果 $ python main.py * recording ^C* done recording Detected language: ja はい、ということで今日はオープンAIが開発したMISPER、マイツイテレンキをしていきたいと思いますMISPERは大さな仕込でです Whisper が MISPER になってしまっています。"音声認識モデル" に至っては、"大さ

                                                                                  openai / whisper を使ってマイクに話した言葉を文字起こしする Python スクリプトを書いた - Qiita
                                                                                • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

                                                                                  こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

                                                                                    OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO