並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 209件

新着順 人気順

音声認識の検索結果121 - 160 件 / 209件

  • GitHub - alphacep/vosk-api: Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node

    Vosk is an offline open source speech recognition toolkit. It enables speech recognition for 20+ languages and dialects - English, Indian English, German, French, Spanish, Portuguese, Chinese, Russian, Turkish, Vietnamese, Italian, Dutch, Catalan, Arabic, Greek, Farsi, Filipino, Ukrainian, Kazakh, Swedish, Japanese, Esperanto, Hindi, Czech, Polish. More to come. Vosk models are small (50 Mb) but p

      GitHub - alphacep/vosk-api: Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node
    • Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ

      OBS WebSocketの設定 OBSのWebSocket機能を有効にします。WebSocket機能は比較的新しい機能で、使ったことがない方も多いと思います。LAN内のコンピュータからOBSの各種プロパティを取得・変更できます。各種プログラミング言語から直接APIを呼べるので、「音声認識の結果を即時に画面に反映する」ような、頻繁に変更される値の更新に適しています。 設定方法は、OBSのメニューから「ツール」-「obs-websocket設定」をクリックし、出てきたダイアログの一番上のチェックボックス「WebSocketサーバーを有効にする」をオンにします。そして「パスワードを生成する」を押します。後述のプログラムで定数として使用します。これでWebSocket機能を使用できるようになります。 Pythonのプログラムから字幕変更 PythonのプログラムからOBSにWebSocketで接

        Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ
      • 「AI文字起こし妖精さん」について - Leverages データ戦略ブログ

        レバレジーズのデータ戦略室で室長をしている阪上です。今回はレバレジーズの運営するメディアの取材における課題について紹介したいと思います。 課題 レバレジーズが運営しているメディアで取材が数多く行われているのですが、取材音声の文字起こしをこれまで人手のみで行なっていました。1時間の取材の場合、1時間以上に文字起こしに時間がかかったりするため、記事を書く上での重要な情報資源ながら、人に対する負担が大きい状態でした。そこで、現場の悩みを解決したいと思いました。 仕組みの説明 まず、求められる要件を以下の通りです。 求められる要件 文字起こしをして欲しい。 Googleドライブにアップロードしたら自動で文字起こしされ、結果もGoogleドライブに返して欲しい。 文字起こし結果を一定の文字数で改行して欲しい 朝の8時から夜の21時までは処理を受け付けて欲しい、1~2時間以内に処理結果が欲しい 様々な

          「AI文字起こし妖精さん」について - Leverages データ戦略ブログ
        • 「Microsoft Teams」2022年8月のアップデートまとめが公開 ~自動文字起こし機能が利用可能に/共有コンテンツを別のウィンドウにポップアップ表示する機能も

            「Microsoft Teams」2022年8月のアップデートまとめが公開 ~自動文字起こし機能が利用可能に/共有コンテンツを別のウィンドウにポップアップ表示する機能も
          • ゲームキャラの制作時間9割減 声色の感情、表情に反映 - 日本経済新聞

            システム開発のCACホールディングスはこのほど、人工知能(AI)による感情解析でゲーム制作を効率化するサービスを始めた。声優が吹き込んだセリフの感情をAIが解析してCG(コンピューターグラフィックス)に自動反映させ、キャラクターに表情をつける制作にかかる時間を最大9割ほど削減できるとうたう。国内外のゲーム会社に売り込むとともに、メタバース(仮想空間)の領域への応用もめざす。ゲームの制作支援サー

              ゲームキャラの制作時間9割減 声色の感情、表情に反映 - 日本経済新聞
            • [ローカル環境] faster-whisperを利用してリアルタイム文字起こしに挑戦 - Qiita

              はじめに WhisperAPI を利用せずにローカル環境でリアルタイム文字起こしに挑戦してみました。 本家Whisperだと音声ファイル形式以外の入力がうまくいかなかったため、faster-whisper を利用しました。 手探りで挑戦しましたので、何かご指摘がありましたらお教えいただければ幸いです。 効率的に文字起こしを行うための関連記事 [ローカル環境] faster-whisper を利用してリアルタイム文字起こしに挑戦2 [Windows] 文字起こしにデスクトップ音を利用する試み faster-whisperのパラメータを調べてみました [faster-whisper]ローカル環境でのリアルタイム文字起こしがいい感じに動作するようになった 2023 年 03 月 30 日 2023 年 04 月 05 日 更新 2023 年 04 月 26 日 更新 2023 年 04 月 28

                [ローカル環境] faster-whisperを利用してリアルタイム文字起こしに挑戦 - Qiita
              • macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能に。

                macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能になりました。詳細は以下から。 Appleは2020年にApple Siliconを搭載したMacを発表以降、Apple SiliconのNeural Engineを利用した「音声入力(Dictation)」機能を強化し、現在Apple Siliconを搭載したMacでは、多くの言語で音声入力リクエストはオンデバイスで処理されるようになっていますが、 Appleシリコンを搭載したMacでは、一般的なテキストの音声入力リクエスト(例えば、メッセージやメモの作成は含まれますが、検索ボックスへの音声入力は含まれません)は多くの言語についてデバイス上で処理され、インターネット接続は必要ありません。また、音声入力できるテキストの長さに制限はなく、タイムアウトもありません。 Macでメッセージや書類を音声

                  macOS 14 Sonomaでは、音声入力を止めることなく、途中でキーボード入力を行うことが可能に。
                • GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ

                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                    GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ
                  • Engadget | Technology News & Reviews

                    Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

                      Engadget | Technology News & Reviews
                    • Alexaはユーザー音声の「写し」を無期限に保持し続ける、音声データを削除しても意味なし

                      Amazonの子ども向け音声対応デバイス「Echo Dot Kids」が子どもの読書・視聴・購買習慣を収集&記録して無期限に保持し、親が音声データを削除してもトランスクリプト(写し)が削除されない……という問題が指摘され、子供のオンラインプライバシー保護法にも違反するとして2019年5月に話題となりました。この件についてアメリカの上院議員に回答を求められていたAmazonは、2019年6月28日、トランスクリプトが削除されないことを認め、内容を説明しています。 Amazon Senator Coons__Response Letter__6.28.19[3].pdf (PDFファイル)https://www.coons.senate.gov/imo/media/doc/Amazon%20Senator%20Coons__Response%20Letter__6.28.19%5B3%5D.p

                        Alexaはユーザー音声の「写し」を無期限に保持し続ける、音声データを削除しても意味なし
                      • TechCrunch

                        When Joanna Strober was around 47, she stopped sleeping. While losing sleep is a common symptom of perimenopause, she first had to go to multiple providers, including driving 45 minutes out of San Fra The Federal Trade Commission hit Razer with a $1.1 million fine Tuesday. The order claims that the gaming accessory maker misled consumers by claiming that its flashy Zephyr mask was certified as N95

                          TechCrunch
                        • 【Windows】音声ファイルから無料で文字起こしする方法 | TeraDas

                          ちょっとトリッキーではあるんですが、Windows で mp3・WAV・flac・mp4 などの音声ファイルから無料で文字起こしする方法を書いておきます。 今回は、Google ドキュメントを使う方法を中心に紹介しておきますが、最後に他の方法も紹介しておきます。 Googleドキュメントの音声入力機能以前も紹介したとおり、Chrome 上から利用する Google ドキュメントでは、音声認識機能による音声入力が可能です。 具体的には「ツール」→「音声入力」を開き、 表示されるマイクのアイコンをタップして音声入力すれば、専門用語などでなければかなりの精度で文字に起こしてくれる、という使い方になります。 ただ、単純にこの操作をした場合はマイクから喋る必要があり、手元にある .wav / .mp3 などの音声ファイルの中身を音声認識してはくれません。 Windowsで再生した音声をWindows

                            【Windows】音声ファイルから無料で文字起こしする方法 | TeraDas
                          • 【徹底解説】VB-Audio Virtual Cableのインストール方法と使い方

                            この記事には広告を含む場合があります。 記事内で紹介する商品を購入することで、当サイトに売り上げの一部が還元されることがあります。

                              【徹底解説】VB-Audio Virtual Cableのインストール方法と使い方
                            • 国内シェア1位はiPhoneで変わらず ドコモ「ケータイ社会白書2019年版」

                              NTTドコモ モバイル社会研究所が、スマートフォンとケータイ(ガラケー)の利用状況をモバイル社会研究所が独自に調査した結果をまとめたデータブック「ケータイ社会白書2019年版」を公開している。 スマートフォン比率は、2010年は3.6%だったのが、2019年は83.5%にまで増加し、ケータイ利用率は16.1%と2018年の24.8%を下回る。

                                国内シェア1位はiPhoneで変わらず ドコモ「ケータイ社会白書2019年版」
                              • WhisperとGoogle Colaboratoryで音声の文字起こしをやってみた

                                AI 業界の進化が著しい昨今、AI の研究開発企業として名高い OpenAI から Whisper というとんでもない自動音声認識モデルの発表がありました。(2022/09/22)Whisper は 68 万時間かけてトレーニングされた自動音声認識モデルでなんとオープンソース化されています。 公開されているサンプルでは早口や K-POP、フランス語、アクセントのある会話などを問題なく処理できることが示されています。また日本語に関しても高い精度を保持していることがグラフから見て取れます。 Whisper の GitHub リポジトリより引用 この記事で行うこと この記事では Whisper を Google が提供する Colaboratory で利用し、文字起こしツールを作成していきたいと思います。 今回やりたいことは以下の 3 つになります。 音声データから文字起こしができる 文字起こし

                                  WhisperとGoogle Colaboratoryで音声の文字起こしをやってみた
                                • Windows 10でも日本語の音声入力ができるようになるみたいです!【高橋忍のにゃんともWindows】

                                    Windows 10でも日本語の音声入力ができるようになるみたいです!【高橋忍のにゃんともWindows】
                                  • Introducing a foundational multimodal model for speech translation

                                    Today, we’re introducing SeamlessM4T, a foundational multilingual and multitask model that seamlessly translates and transcribes across speech and text. SeamlessM4T supports: Automatic speech recognition for nearly 100 languagesSpeech-to-text translation for nearly 100 input and output languagesSpeech-to-speech translation, supporting nearly 100 input languages and 35 (+ English) output languagesT

                                      Introducing a foundational multimodal model for speech translation
                                    • ポケトークにアプリ版、翻訳で世界市場へ

                                        ポケトークにアプリ版、翻訳で世界市場へ
                                      • NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表!AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト

                                          NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表!AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト
                                        • iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。

                                          iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポートされています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し「iOS 17.4/iPadOS 17.4 Build 21E219」を正式にリリースしましたが、このiOS/iPadOS 17.4ではAppleのポッドキャストアプリで文字起こし機能が追加サポートされています。 文字起こし機能により、英語、スペイン語、フランス語、およびドイツ語でオーディオと同時にテキストがハイライト表示されエピソードを追うことが可能 リリースノートより Appleによると、ポッドキャストアプリの文字起こし機能は、本日より最新のエピソードに文字起こししたテキストが追加され、過去のエピソードも今後順次文字起こし処理さ

                                            iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。
                                          • TechCrunch | Startup and Technology News

                                            After Apple loosened its App Store guidelines to permit game emulators, the retro game emulator Delta — an app 10 years in the making — hit the top of the…

                                              TechCrunch | Startup and Technology News
                                            • Pythonで学ぶ音声認識 機械学習実践シリーズ - インプレスブックス

                                              3,850円(本体 3,500円+税10%) 品種名書籍 発売日2021/5/20 ページ数352 サイズB5変形判 著者 高島遼一 著 ISBN 9784295011385 「音声認識」とは音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるまでを目的とし、手法の目的やアルゴリズムの概要を解説、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。特に手法の概要については「その手法は何を目的として生み出されたのか」という経緯と「なぜその手法は前述の目的を達成できるのか」について直感的に理解できるよう工夫しています。 目次を見る

                                                Pythonで学ぶ音声認識 機械学習実践シリーズ - インプレスブックス
                                              • USBマイク、カワイイ「SNOWBALL」とカッチョイイ「Yeti X」で音質どう変わる?【日沼諭史の体当たりばったり!】

                                                  USBマイク、カワイイ「SNOWBALL」とカッチョイイ「Yeti X」で音質どう変わる?【日沼諭史の体当たりばったり!】
                                                • 日本語の音声認識はなぜ難しい? 精度向上のカギは、「辞書」と「文脈」にあった

                                                  スマホの音声入力では、マイクに向かってしゃべった声が、リアルタイムに文章として入力されます。その裏側を支えているのが「音声認識」。声を分析し、文字のデータに変換する技術です。「Alexa、電気消して」も「Hey Siri、明日の天気は?」も、音声認識なしには実現しません。 最近では、会議の音声から議事録を作ったり、音声で作業記録を付けたりなど、音声認識の用途は拡がりを見せているそう。一方で、「インタビューの文字起こしがうまくいかない」など、思うように認識されないという声も耳にします。 そもそも、音声認識はどうやって人間の声を認識しているのか? 日本語の音声認識はどこが難しいのか? 音声認識ソリューションを手がける株式会社アドバンスト・メディアの安藤さんに、音声認識の気になる裏側を聞きました。 株式会社アドバンスト・メディア 1997年に創業し、音声認識技術「AmiVoice」をコアとした各

                                                    日本語の音声認識はなぜ難しい? 精度向上のカギは、「辞書」と「文脈」にあった
                                                  • 日本語音声のマイク入力をオフラインでリアルタイム音声認識:「VOSK」を JavaScript(Node.js)で扱う - Qiita

                                                    この記事の内容は、オフラインでリアルタイム音声認識ができ、日本語にも対応している以下の「VOSK」を試してみた話です。 ●VOSK Offline Speech Recognition API https://alphacephei.com/vosk/ そして今回の記事で、VOSK を扱う開発言語・環境は「JavaScript(Node.js)」です(自分がよく使っているから、という選定理由です)。 なお、対応している他の開発言語などは、公式ページの「Installation」を見ると確認でき、例えばスマホ向け(Android・iOS)や Python・Java・C# などもあるようです。 VOSK を「JavaScript(Node.js)」で扱う それでは、タイトルや冒頭にも書いた JavaScript(Node.js)で VOSK を扱う話へと進んでいきます。 公式ドキュメントの情報

                                                      日本語音声のマイク入力をオフラインでリアルタイム音声認識:「VOSK」を JavaScript(Node.js)で扱う - Qiita
                                                    • Windows上の任意アプリでGoogle音声入力を使う方法(インライン入力) | TeraDas(テラダス)

                                                      (※これは管理人イチオシの記事です。) 今回は、Windows の任意アプリ上で Google 音声入力をインラインで使う方法を紹介します。 Windows 上での音声入力と言えば、Microsoft 純正の「Dictate」「ディクテーション」といった機能がありますが、Google 音声入力と比べると認識率がイマイチ。 一方の Google 音声入力は認識率は抜群なのに、Windows 上ではブラウザで動作する Google ドキュメントなどでしか(普通の方法では)利用できないのが欠点でした。 しかし、今回紹介する「Android スマホアプリと Windows をうまく組み合わせる」方法を使えば、Windows 上の任意アプリのインラインで Google 音声入力を使えるようになります。 Bluetooth ヘッドセットとの相性も非常に良く、Windows 上で実用的な音声入力を実現で

                                                        Windows上の任意アプリでGoogle音声入力を使う方法(インライン入力) | TeraDas(テラダス)
                                                      • 「Voidol 結月ゆかり」発売開始

                                                        2020年9月29日より、AIリアルタイム声質変換システム「Voidol」用のボイスモデル「結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル」のダウンロード販売が開始されました。 楽天ブックス:結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル / 販売元:クリムゾンテクノロジー株式会社Amazon:結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル|ダウンロード版 「Voidol - Powered by リアチェンvoice -」 ナレーターや演者様の声をかわいい女性の声やイケメンボイスなど様々な声にAIリアルタイム声質変換。 Amazon.co.jp PCソフト ダウンロードストア売れ筋ランキング1位獲得。 Windows10とmacOS Xに対応。販売中の多彩なボイスモデルの追加が可能です。 付属のボイスモデルも女性の「音宮いろは」少年風の「くりむ蔵」と男性の「

                                                          「Voidol 結月ゆかり」発売開始
                                                        • LINEのAI技術を販売する「LINE BRAIN」開始 チャットbotや文字認識、音声認識技術を提供

                                                          自然言語の理解・応答技術の「LINE BRAIN CHATBOT」は、LINEの調査によれば、質問に対する応答で他社のチャットbotよりも正答率が高いという。販売するチャットbot技術は、LINE以外のサービスにも実装できる。 「LINE BRAIN OCR」は、画像内の文字を認識してテキストデータに変換する技術。スクリーンショット内の文字などを高い精度で認識するという。領収書の読み取りや、申込書、注文書、免許証の登録などでの活用を見込む。 「LINE BRAIN SPEECH TO TEXT」は、音声をテキストデータに変換する技術。長文の書き起こしや製品名など固有名詞にも対応する。コールセンターのオペレーター支援や動画音声の字幕起こしなどに利用できるという。 LINEの舛田淳取締役CSMO(最高戦略マーケティング責任者)は27日に行った自社イベント「LINE CONFERENCE 201

                                                            LINEのAI技術を販売する「LINE BRAIN」開始 チャットbotや文字認識、音声認識技術を提供
                                                          • 音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO

                                                            こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、前回はtranscribeの内容を紐解きました。 Whisperが提供しているtranscribeのAPIは、バッチ処理のみに対応した構成となっており、リアルタイムに認識を試すのが難しくなっています。 そこで今回は、前回紐解いた結果を使ってストリーミング処理に対応させてみようと思います。 設計の概要 以下に設計の概要を図で示します。 前回ご紹介した通り、transcribeの中身は30秒単位で処理をしています(この単位を本記事ではフレームと呼びます)。 そして次の処理フレームは、前のフレームのタイムスタンプトークンの末尾から30秒となります。 そのためフレームをずらす長さ(これを本記事ではシフト長と呼びます)は動的になります。 そのため、設計方針は以下のようにしました。

                                                              音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO
                                                            • GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine

                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                                                GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine
                                                              • iOS 15では火災警報や猫/犬、赤ん坊の泣き声などを認識してiPhoneに通知する「サウンド認識」機能に、ガラスの割れる音とやかん音が追加。

                                                                iOS 15では火災警報や猫/犬、赤ん坊の泣き声などを認識してiPhoneに通知を出す「サウンド認識」機能に、ガラスの割れる音とやかんの音が追加されています。詳細は以下から。 Appleは2020年09月にリリースした「iOS 14/iPadOS 14」でアクセシビリティ機能の1つとして、火災報知器やサイレンなどの音を聞き逃してしまう聴覚に障害があるユーザー向けに、オンデバイスの音声認識処理を利用し、iPhoneやiPadの周辺で警報やサイレンが鳴ると通知を表示する「サウンド認識」機能を導入しましたが、 現地時間2021年09月20日に新たにリリースされた「iOS 15/iPadOS 15」では、このサウンド認識機能に「ガラスの割れる音」と「やかん(が沸く音)」が新たに追加されています。 サウンド認識を使う iOS 14/iPadOS 14以降のiPhoneやiPadデバイスでサウンド認識

                                                                  iOS 15では火災警報や猫/犬、赤ん坊の泣き声などを認識してiPhoneに通知する「サウンド認識」機能に、ガラスの割れる音とやかん音が追加。
                                                                • 小難しいコーディングは一切不要!!!たったの15分でLINE Clovaにクソアプリを解き放ってTシャツをゲットする方法を発明したよ。 - Qiita

                                                                  小難しいコーディングは一切不要!!!たったの15分でLINE Clovaにクソアプリを解き放ってTシャツをゲットする方法を発明したよ。LINEClovaスマートスピーカー この記事はリンク情報システム(Facebookはこちら)が主催する真夏のアドベントカレンダー「2019 Tech Connect Summer」のリレー記事です。「2019 Tech Connect Summer」は engineer.hanzomon のグループメンバによってリレーされます。 6日目の本記事は、わたくし@taisuke3(たいすけさん)が執筆しました。どうぞよろしくお願いします。 2019/08/12 悲報 大変申し訳ございません。結論から申し上げますと、本記事はなんの役にも立たないクソ記事と化しておりました。。。 記事を投稿してから一週間、メールを確認すると、在庫が丁度無くなりプレゼントできなくなった

                                                                    小難しいコーディングは一切不要!!!たったの15分でLINE Clovaにクソアプリを解き放ってTシャツをゲットする方法を発明したよ。 - Qiita
                                                                  • 情シスがオフィスの顔を一瞬で変えた!?「受付アプリ開発」秘話

                                                                    こんにちは!ブランディングプロジェクトのだーはらです。 現在ほぼ在宅勤務の日々なのですが、久々オフィスへ出社したら、前々からお話聞きたいなーと思っていた人がたまたまいらっしゃいまして。 速攻インタビューのセッティング! ということで、今回はColorkrew(カラクル)のイケてる受付アプリを開発した情シス担当の小嶋さんに突撃インタビューしてみました! 社歴20年!情シス、小嶋さんのあれやこれや 原田:急なインタビューですが、今日はよろしくお願いします! 小嶋:いえいえ、こちらこそ! 原田:前々から聞きたかった「受付アプリの開発」についての話の前に、まずは、小嶋さんのパーソナルヒストリーを少し伺えられたらなぁと思っているのですが。 小嶋:パーソナルヒストリーですか。どこから話せば良いですかね。一応私は、カラクルの中では、最古参の方になるかな?私より前にいたのは西村さんくらいかな?と。 原田:

                                                                      情シスがオフィスの顔を一瞬で変えた!?「受付アプリ開発」秘話
                                                                    • Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。

                                                                      Appleが新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー充放電回数や製造日表示などを追加した「iOS/iPadOS 17.4」を正式にリリースしています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し新しい絵文字やポッドキャストアプリの文字起こし機能などを実装した「iOS 17.4 Build 21E219」および「iPadOS 17.4 Build 21E219」アップデートを正式にリリースしたと発表しています。 このアップデートでは、新しい絵文字とApple Podcastでの文字起こしが導入され、iPhoneでのその他の機能、バグ修正、およびセキュリティアップデートも含まれます。 リリースノートより抜粋 iOS/iPadOS 17.4では

                                                                        Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。
                                                                      • 自作データセットでWhisperをファインチューニングしたら、独自用語だらけのクラロワ実況でも使えるようになった:「データセット作成編」

                                                                        とりあえず結果 40分くらいの動画で一旦文字起こししてとりあえずファインチューニングしてみた。 いったん試しくらいでやったから適当だったが、その学習済みモデルで別動画の推論をした結果以下の結果になった クラロワ実況の一文 正解の文章 めっちゃしやすくてで迫撃にもアチャクイを当てられるでしょ だもうマジで環境でゴレとかにもまあポイズンウッドだから普通に強くてエリポンも別にディガーで潰せると三銃士が来ても勝てるロイホグ系もねゴーストアチャクイゴブリンウッドだからめっちゃ強いんですよ 元のWhisperでpredictした文章 めっちゃしやすくてで迫撃にもあ着いを当てられるでしょ だもうマジで環境で5例とかにもはポイズングッドだから普通に強くてエリポンも別にリガーで潰せると30人が来ても勝てるロイホグ系もねゴーストアチャクイゴブリングッドだからめっちゃ強いんですよ 流石にゴレが5例になってたりデ

                                                                          自作データセットでWhisperをファインチューニングしたら、独自用語だらけのクラロワ実況でも使えるようになった:「データセット作成編」
                                                                        • OK、グーグル。アルファベットを買収して。直ちに実行致します。ノブレス・オブリージュ 今後も救世主たらんことを

                                                                          Bluetoothのスピーカーが欲しくなった。私は、ブログを書いている時は大概ラジオを聞きながらやっているのだけども、ラジコのタイムフリー(過去の放送を振り返って聞くことができる)で聞き逃したものを聞きながらというのがいつものパターンだ。その際はまずTraveling Without Movingを聞き、まだ書くものが残っていたらジェットストリームへ移行する。後はもう写真を貼っ付けたり誤字脱字の直しだけとなれば、レコーダーに録っておいたWBS(ワールドビジネスサテライト)なんかをながら見しながらというのがいつもの事となる。&nbsp… 使わなければ使わなくても良いのだけども、それはやっぱりもったいない。 そこで考えた。 そうだ、スマートスピーカーを買えば良いじゃあないか、と。 というのも、私の家はあまりラジオの入りがよろしくない。 ちゃんと入るのは、NHK第一、第二とニッポン放送くらいで、

                                                                            OK、グーグル。アルファベットを買収して。直ちに実行致します。ノブレス・オブリージュ 今後も救世主たらんことを
                                                                          • ミニマリストはテクノロジーのおかげな話

                                                                            なんでもスマホでできちゃう弊害 ひとつでなんでもできてしまうことの弊害もあります。 スマホがないと何もできないくらいスマホに依存する生活になりました。 中毒性もあります。 なんでもスマホでできちゃうので、ちょっとでも時間ができると何となくスマホに手が伸びてしまいます。 スマホのアプリは注目を浴びてもらうために色んな工夫がされています。 自分もその一人ですが、YouTubeやSNSで無益な時間を過ごしてしまった!ということも増えました。 サブスクリプションで持たずにすむモノ 本・映画・音楽などのコンテンツ サブスクリプションサービスの登場で、本や、映画、音楽は持たずにすむようになりました。 よくお世話になっているのは、Amazonです。 Kindle Amazon Music Prime Video とこの辺はよく使ってます。 Amazon以外にも、Hulu、Spotifyとか…、今やたくさ

                                                                              ミニマリストはテクノロジーのおかげな話
                                                                            • Googleアシスタントがよりシームレスで正確な会話ができるよう進化、開発ツールもより簡易なものに

                                                                              現地時間2020年6月17日に行われた音声テクノロジーに関するオンラインカンファレンス「Voice Global」の中で、GoogleがGoogleアシスタントのコアプラットフォームと開発ツールを改善したと発表しました。 Google Developers Blog: Voice Global 2020: New improvements to core platform and development tools for Google Assistant https://developers.googleblog.com/2020/06/voice-global-2020-new-improvements-to-core-platform.html Googleアシスタントは30を超える言語に対応しており、毎月5億人を超える人々が使用するAIアシスタントです。GoogleはGoogleア

                                                                                Googleアシスタントがよりシームレスで正確な会話ができるよう進化、開発ツールもより簡易なものに
                                                                              • テープ起こし不要? Pixel 6の「日本語文字起こし」が凄い(山口健太) - エキスパート - Yahoo!ニュース

                                                                                10月28日発売のグーグル最新スマホ「Pixel 6」シリーズ。普通のAndroidスマホに比べてグーグルの最新AIをいち早く体験できるのが特徴ですが、その中でも「文字起こし」の機能が注目されています。 筆者のように取材が多い仕事にICレコーダーは必須アイテムですが、仕事や学業に活用している人も多いのではないでしょうか。しかし録音を聞きながら必要な情報を取り出す作業は面倒なものです。 この面倒な文字起こし作業をスマホ標準の機能として実現してしまったのが「レコーダー」アプリです。これまでは英語が先行してきましたが、Pixel 6では新たに日本語に対応しています。 録音中の画面。音声がどんどん文字に変換されていく(筆者作成) 実際にPixel 6のレコーダーアプリで録音し、文字起こしをさせてみた結果がこちら。さすがに認識ミスはあり、意味が分かりにくい部分はあるものの、スマホ標準の機能で何の労力

                                                                                  テープ起こし不要? Pixel 6の「日本語文字起こし」が凄い(山口健太) - エキスパート - Yahoo!ニュース
                                                                                • Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性:Gurman氏 - こぼねみ

                                                                                  Appleは今年のWWDCで「Hey Siri」の「Hey」を省くという大きな変更を発表する可能性をBloombergのMark Gurman氏がツイートしています。 Siri単に「Hey」をなくすだけなので、わずかな変化のようにもみえますが、決してそうではなく、この変更は技術的な挑戦であり、相当量のAIトレーニングと根本的なエンジニアリング作業を必要となるとGurman氏は以前報告していました(関連記事)。 というのも「Hey Siri」にはSiriが複数の異なるアクセントや方言で「Siri」という単一のフレーズを理解できるようにすることが含まれており、「Hey Siri」という2つの単語があることで、システムが正しく信号を取得する可能性を高めることができるからです。 AppleがWWDCで発表する見込みのMRヘッドセットは音声コントロールを搭載すると噂されており、Siriの改良は新デバ

                                                                                    Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性:Gurman氏 - こぼねみ