並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 217件

新着順 人気順

音声認識の検索結果1 - 40 件 / 217件

音声認識に関するエントリは217件あります。 AI技術音声 などが関連タグです。 人気エントリには 『音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション』などがあります。
  • 音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション

    日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。 このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人+男性3人+女の子1人=7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば

      音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション
    • Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania

      Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcrib‪e‬(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行うことができます。 アプリは80カ国以上の言語に対応しているため、ユーザーはリアルタイムの文字起こしを活用

        Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania
      • 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

        Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

          「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
        • ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」

          チキン@ライター @HeroofChickens フリーランスのライター4年目。リストラがきっかけ。Kindle出版1位、Kindleプロデュースで1位・ベストセラー取得。商業出版のブックライティング中(2024年の5月ごろ出版かな?) webwhiter-skill.com/job/

            ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
          • 「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】

              「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】
            • 「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能

              「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画…

                「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能
              • iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)

                アプリや専用デバイスを使った、日本語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識のテクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日本語対応の自動文字起こしアプリ コミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が開発を手がけている。 モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/

                  iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)
                • 年末年始に振り返る 2021年の人工知能10大トレンドと必読論文

                    年末年始に振り返る 2021年の人工知能10大トレンドと必読論文
                  • 動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に

                    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ(背景雑音)を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。 実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除

                      動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に
                    • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                      会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                        文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                      • スマートスピーカーって一時期流行ったけど(追記あり)

                        今も使っている人どれくらいいるんだろう。 これ、DSの脳トレから全然進化してないじゃん 〜追記〜 みんな色々な意見ありがとう。賛否両方読ませてもらってます!恥ずかしい?何が? ちなみに、DSのゲームは「脳を鍛える大人のDSトレーニング」ね。くりぃむしちゅーのANN第96回に出てきた、きいろ!も聞き取ってくれないというエピソードから考えたネタだよ。さすがにスマートスピーカーはそこまで精度悪くない。 くりぃむしちゅーのオールナイトニッポンおもしろいからみんな聞いてな!

                          スマートスピーカーって一時期流行ったけど(追記あり)
                        • 録音した音声を文字起こしするiOS無料アプリ「Qyur2(キュルキュル)」 - ITmedia Mobile

                          Qyur2のユニークな仕掛けも特徴的で、昭和のカセットレコーダーのようなUI(ユーザーインタフェース)に、キュルキュルと音を立てながらデータを巻き戻せる。 この他にも、英会話用コンテンツ「完全改訂版 起きてから寝るまで英語表現700」「究極の英会話(上)中学1~2年レベル英文法100パーセント攻略」において、音声に合わせてテキストを表示する機能も追加した。 対応OSのバージョンはiOS 10.0以降を搭載したiPhone、iPad、iPod touchで、対応言語は日本語、英語、中国語(簡体、繁体)。ダウンロードは無料だが、英語・英会話用、中国語、韓国語コンテンツ、自動文字変換を利用するにはポイントの購入が必要となる。 【訂正:2019年6月7日21時22分 初出時に、タイトルに「無料アプリ」と記載していましたが、自動文字変換は有償のため、タイトルから「無料」を削除いたしました】 【訂正:

                            録音した音声を文字起こしするiOS無料アプリ「Qyur2(キュルキュル)」 - ITmedia Mobile
                          • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                            株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                              超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                            • Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話

                              稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h 電話を取ると「Google マップです」と男性から電話。 Google「この電話はGoogle マップの店舗様の営業時間を自動で確認しております」 ぼく「はい」 Google「そちらの営業時間を教えてください」 ぼく「月曜から金曜の9時〜18時です」 Google「土曜日と日曜日の営業時間も教えてください」 ↓ 2022-01-25 10:26:41 稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h ぼく「土曜と日曜は普通にお休みです」 Google「確認させてください。そちらの営業時間は月曜から金曜の9時〜18時でよろしいでしょうか」 ぼく「はい」 Google「ありがとうございました(電話を切りそうな気配)」 ぼく「待って。参

                                Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話
                              • 文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉

                                どうもこんにちは、あんどう(@t_andou)です。 前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。 「Youtubeの」と書いていますが、実際はどの動画でも対応してます。 前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え 上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続 下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロード ここにドラッグ&ドロップでアップできます 大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更 ファイル名に合わせて変更してください 5.全セルを実行 あと

                                  文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
                                • 「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】

                                    「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】
                                  • 「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売

                                    インプレスグループでIT関連メディア事業を展開する株式会社インプレス(本社:東京都千代田区、代表取締役社長:小川 亨)は、「音源分離」技術の基礎から実装までを解説した書籍『Pythonで学ぶ音源分離 機械学習実践シリーズ』を2020年8月24日(月)に発売いたします。 ■身近なものにも活用される技術「音源分離」の基礎と実装を解説する一冊 近年、AIスピーカをはじめとした、人が話した音声を理解する音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは、1人の声を聞き取ることを想定しており、聞きたい声以外の音が入ってきたときには、聞きたい声を正確に聞き取ることが難しくなります。「音源分離」とはこのようにさまざまな音が混ざった中から、欲しい音だけを抽出する技術です。本書では、音源分離の基礎から、Pythonを用いた実装までを詳しく解説しています。 ■音源分離に必要不可欠な数

                                      「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売
                                    • もはや人間と区別がつかない次元に。多言語で歌う機能も搭載したSynthesizer Vの破壊力|DTMステーション

                                      驚異的に進化したSynthesizer V AI まずは、バックグラウンドや機能、性能といったものを紹介する前に、私がSynthesizer V Pro Studioの1.5.0を使って打ち込んだ、弦巻マキの歌声をちょっと聴いてみてください。 いかがですか?従来の歌声合成の概念を覆すレベルに来ていると思いませんか?これは、2年前のコミケでDTMステーションCreativeからリリースしたoyasumiという曲の冒頭部分。そのときは声優の小岩井ことりさんにボーカルをお願いし、囁くように優しく歌ってもらったので、弦巻マキにも、それっぽく歌わせて仕上げてみたのです。本来、弦巻マキは「アニメキャラっぽい雰囲気の元気な女の子」というイメージの歌声ですが、そことはだいぶ違ったニュアンスの歌声になっているのも感じられたと思います。 「自動処理」メニューにある「自動ピッチ調整(カスタマイズ)」を選択する

                                        もはや人間と区別がつかない次元に。多言語で歌う機能も搭載したSynthesizer Vの破壊力|DTMステーション
                                      • iPhone・Androidで高速に日本語音声入力するためのベストプラクティス

                                        先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。 なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。 その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。 この記事では、iPhoneとAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhone・iPadの場合 先に結論から申し上げると、iPhone・iPad・Macの日本語音声入力は、AndroidのGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。 仕事

                                          iPhone・Androidで高速に日本語音声入力するためのベストプラクティス
                                        • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                                          画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                                            OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                                          • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                            東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                              超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                            • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                              はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                              • Microsoftの音声アシスタント「Cortana」、2021年にフェードアウト 縮小のロードマップ公開

                                                米Microsoftの音声アシスタント「Cortana」の消費者向けアプリおよびサービスの多くが2021年に終了する。Microsoftは8月1日(米国時間)、「Upcoming changes to Cortana」と題したサポートページでCortanaフェードアウトのロードマップを提示した。

                                                  Microsoftの音声アシスタント「Cortana」、2021年にフェードアウト 縮小のロードマップ公開
                                                • 音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力

                                                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が開発した「DualVoice: A Speech Interaction Method Using Whisper-Voice as Commands」は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術だ。文字入力以外のコマンド入力と音声認識ミスによる修正は、通常の声とは別に「ささやき声」で操作する。通常の声とささやき声を使い分ける方法で、ハンズフリーの完全な音声入力を実現する。 音声による文字入力はタイピングに比べて格段に速いため、アイデアを書き留めたり、原稿を素

                                                    音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力
                                                  • 【iOS14】ドアベルなどの音をiPhoneが聞き取って通知する「サウンド認識」 - iPhone Mania

                                                    イヤホン・ヘッドホンで音楽を聴いていたら、家のチャイムが鳴っているのに気づかなかった。何かいい解決策はないの? iOS14 / iPadOS14から「サウンド認識」機能が追加されました。元々は「アクセシビリティ」に分類されている、聴覚サポート機能の一つです。しかし、iPhoneが聞き取った音を通知してくれる機能は、日常生活で便利に活用することができます。 例えば、イヤホンやヘッドホンで音楽を聴いていると、外部の音を認識しづらくなります。そのため、ドアのチャイムが聴こえなくて応対できない場合があります。「ドアベル」の音を通知するように設定すれば、チャイムの音が聞こえなくて宅配便の荷物を受け取れなかった、といったことを防ぐことができます。「ドアベル」の他にも「水の出しっ放し」などの認識可能な音があるので、お好みで設定することをおすすめします。

                                                      【iOS14】ドアベルなどの音をiPhoneが聞き取って通知する「サウンド認識」 - iPhone Mania
                                                    • PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

                                                      PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan

                                                        PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
                                                      • 「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】

                                                          「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】
                                                        • ChatGPTのアプリ版すごくね!?

                                                          モバイルアプリ版に実装されてる音声入出力機能が無課金ユーザーにも開放されたってニュースを見て貧乏人の俺は早速ダウンロードしたわけね。 英会話の練習に使えるみたいなニュースを見てたから興味津々でトライしたわけよ。 そしたらまあ俺の英語力では話すのも聞き取るのもままならず、到底使いこなせる”域”に達してねえなこりゃ、と早々に自分に失望したよ。 はあ、アンインスコするか・・・と思いながら設定ちょろちょろ弄ってたら「Speach」の欄にMain Languageって項目があって、そこがAuto-Detect(自動検出)になってたんよね。 あっこれのせいか!俺の英語力が悪いからじゃなかったんだと思って、Englishに切り替えてもう一回やってみたわけ。 そしたら案の定結果は変わらずさらに落ち込んだ。 で、もうどうでもいいやと思いながら日本語で適当に話しかけたんだよ。 そしたら! なぜか俺が日本語で話

                                                            ChatGPTのアプリ版すごくね!?
                                                          • 不要な音は消去して必要な音だけ聞ける“聴力自在化”技術 北大と神大が開発

                                                            Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 北海道大学と神戸大学による研究チームが発表した「ウェアラブルコンピューティングにおける聴力自在化技術の提案」(PDFへのリンク)は、外界音を変換し、ユーザーが自在に自身の聴力を操作する技術だ。この技術を用いることで、外界音から聞きたい音だけを選択して聞くことができる。 人間の耳は、自らの意志では制御することが難しく、聞く音の取捨選択ができない。その上、超音波などの人間には聞こえない音も取得することができない。 研究チームは、マイクとスピーカーを搭載したイヤフォン型ウェアラブルデバイス(マイク付きワイヤレスイヤフォン)での利用を想定し、外界音から聞きたい音だけを聞ける技術でこの課題に挑戦する

                                                              不要な音は消去して必要な音だけ聞ける“聴力自在化”技術 北大と神大が開発
                                                            • YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用

                                                              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米テキサス大学サンアントニオ校と米コロラド大学コロラドスプリングス校に所属する研究者らが発表した論文「Near-Ultrasound Inaudible Trojan(NUIT): Exploit Your Speaker to Attack Your Microphone」は、スマートフォンやスマートスピーカーの音声アシスタント(Siri、Google Assistant、Alexa、Cortana)に対する不可聴攻撃を提案した研究報告である。 その手口は、インターネット(動画や音楽、Web会議など)を通じて、人間には聞こえない音を流し、リモートでス

                                                                YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用
                                                              • アレクサを好きな声に変更可能へ、アマゾンが計画発表

                                                                米アマゾン・ドット・コムは22日、音声アシスタント機能「アレクサ」について、人工知能(AI)の音声を自分の好きな声に変更できるようにする計画を明らかにした。昨年10月撮影(2022年 ロイター/MIKE BLAKE) [ラスベガス 22日 ロイター] - 米アマゾン・ドット・コムは22日、音声アシスタント機能「アレクサ」について、人工知能(AI)の音声を自分の好きな声に変更できるようにする計画を明らかにした。

                                                                  アレクサを好きな声に変更可能へ、アマゾンが計画発表
                                                                • Engadget | Technology News & Reviews

                                                                  A swarm of 500 drones will plague New York City with advertising tomorrow

                                                                    Engadget | Technology News & Reviews
                                                                  • 文字起こしアプリで伝言ゲーム

                                                                    1971年東京生まれ。デイリーポータルZウェブマスター。主にインターネットと世田谷区で活動。 編著書は「死ぬかと思った」(アスペクト)など。イカの沖漬けが世界一うまい食べものだと思ってる。(動画インタビュー) 前の記事:影だけ悪魔の人になりたい > 個人サイト webやぎの目 ルール 肉声で喋る→アプリで文字起こし→その結果をiPhoneで読み上げ→ 別のアプリで文字起こし → また読みあげ → またまた別のアプリで文字起こし …を繰り返す。 そうして文章がずれていくさまを楽しもう。

                                                                      文字起こしアプリで伝言ゲーム
                                                                    • ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp

                                                                      ChatGPT APIの使い方 実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール 今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは!"}] ) print(complet

                                                                        ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
                                                                      • “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん

                                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米コロンビア大学の研究チームが発表した「Real-Time Neural Voice Camouflage」は、不正なマイクが取得したユーザーの会話の言葉を正しく聞き取れないようにする攻撃を提案した論文だ。無線で妨害音を発し、自動音声認識(ASR)システムをリアルタイムに混乱させ、本来盗聴側が取得したい会話を間違った形で認識させる。80%の確率でユーザーの言葉を誤認識させられたという。 この妨害音は、その場にいるユーザーの邪魔にならないような静かな音に最適化されている。 妨害を実際に行った3つの例。攻撃していない時の音声信号スペクトログラム(上)、攻撃した際の音声信号スペクトログラム(下)

                                                                          “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん
                                                                        • Google純正の「レコーダー」は録音した音声を文字に自動変換してくれる | juggly.cn

                                                                          Pixel 4 シリーズの登場に併せてリリースされた Google 純正の録音アプリ「レコーダー」は音声を文字に起こす素晴らしい機能を搭載しており、今後、人々のライフスタイルを大きく変える可能性を秘めている思いますのでアプリを紹介します。 録音アプリやボイスレコーダーアプリは既に様々なものが Google Play ストアで配信されているので「レコーダー」は特段珍しいアプリではありませんが、録音データの活用の幅が広がるという意味において「レコーダー」は注目のアプリだと言えます。 注目のアプリと言っても基本的な機能や使い方は他の録音アプリ・ボイスレコーダーアプリと大体同じです。録音開始ボタンを押して録音を開始し、終了ボタンを押して停止します。「保存」を押せばデータとしてスマホに保存されます。 アプリの特徴が録音データの再生画面です。再生ボタンの上にあるタブでモードを選択できるようになっており

                                                                          • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

                                                                            2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること

                                                                              ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
                                                                            • WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita

                                                                              from win11toast import toast toast('Hello Python', 'Click to open url', on_click='https://www.python.org') from win11toast import toast toast('Hello', 'Lorem ipsum dolor sit amet, consectetur adipisicing elit. Earum accusantium porro numquam aspernatur voluptates cum, odio in, animi nihil cupiditate molestias laborum. Consequatur exercitationem modi vitae. In voluptates quia obcaecati!')

                                                                                WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita
                                                                              • 音声文字起こしサービス徹底検証 ベストな選択はこれだ!

                                                                                話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。 ※日経トレンディ2021年5月号の記事を再構成 ディープラーニングやビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。 会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。

                                                                                  音声文字起こしサービス徹底検証 ベストな選択はこれだ!
                                                                                • 「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加/Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】

                                                                                    「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加/Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】

                                                                                  新着記事