並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 2986件

新着順 人気順

音声認識の検索結果1 - 40 件 / 2986件

  • 音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション

    日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。 このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人+男性3人+女の子1人=7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば

      音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション
    • Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania

      Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcrib‪e‬(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う

        Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania
      • 村井純教授の1月16日最終講義全文書き起こし

        概要 「日本のインターネットの父」と呼ばれる慶応大環境情報学部教授の村井純さん(64)が定年を迎え、16日、最終講義があった。村井さんは「インターネットに国境はない。国や政府が分断したり規制しようとしたりする試みは続くだろうが、若い人たちで守ってほしい」と呼びかけた。 https://www.asahi.com/ 村井先生の最終講義。16年ぶりに村井先生の講義を聞いて懐かしくなりました。せっかく良いことをたくさんおっしゃっていたので人力で書き起こしをしました。(Amazonウィッシュリスト) 共同授業担当 佐藤特任准教授(以下教員): そろそろ始めましょうか。 村井: はい。それでは皆さん、こんにちは。インターネットの、2019年秋学期の最終回ということで集まっていただきましてありがとうございました。学生は、履修者があふれるはずだけど来てない。ハハハ。その代わり、なんか変な普段見慣れない人

          村井純教授の1月16日最終講義全文書き起こし
        • [速報]「GitHub Copilot X」発表、GPT-4ベースで大幅強化。AIにバグの調査依頼と修正案を指示、ドキュメントを学習し回答も

          [速報]「GitHub Copilot X」発表、GPT-4ベースで大幅強化。AIにバグの調査依頼と修正案を指示、ドキュメントを学習し回答も GitHubは、GTP-4をベースに「GitHub Copilot」の機能を大幅に強化した「GitHub Copilot X」を発表しました。 GitHub Copilot is already helping developers code faster in their IDEs. But what’s next? Our answer is GitHub Copilot X. It’s our vision for the future of AI-powered software development. Check it out https://t.co/3Xrn7dAPgi — GitHub (@github) March 22, 202

            [速報]「GitHub Copilot X」発表、GPT-4ベースで大幅強化。AIにバグの調査依頼と修正案を指示、ドキュメントを学習し回答も
          • 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

            Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

              「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
            • 機械学習が独学できる日本語Youtube難易度別まとめ - Qiita

              こんにちは。 在宅の機会が増えて以来Youtubeを見る機会が増え、機械学習などが勉強できるチャンネルをいくつか探しては見ていました。探した中でよかったと思ったものをメモしていたのですが、せっかくなので公開したいと思います。日本語のソースがあるもののみ対象にしており、『これ無料でいいのか?』と思ったチャンネルを紹介したいと思います。主観で以下のレベルに分けましたがあくまで参考程度にお願いいたします。 基本:Pythonを触ってみた人 Pythonの説明・動かし方などを解説していて、動画によっては踏み込んだ内容になる 応用:アルゴリズムを使いこなしたい人 「model.fit(X, y)して動かしてみた」よりも踏みこみ、Python自体の説明は少ない 発展:研究開発もしたい人 最新の手法の仕組みの理解などが主眼であり、Pythonの解説はほぼ無い もしおすすめのチャンネルございましたらぜひコ

                機械学習が独学できる日本語Youtube難易度別まとめ - Qiita
              • FireTV Stickは一本あると何かと役に立つ 🌴 officeの杜 🥥

                数あるガジェットの中でも、コスパに優れていて実用的なガジェットというものは意外と少ないです。そんなガジェットのジャンルの中でこの要件を満たすものが「セットトップボックス」と呼ばれるもの。これまでも、Chromecastのクローンのような「Ezcast」や「AppleTV」を買ったことがあります。 ただこれらは使い勝手が微妙だったり、拡張性の面でちょっと・・・しかし、FireTV StickはベースがAndroidという事だけあって、拡張性でも小型なので携帯性にも優れていて仕事でも使えそうです。ということで、使い倒してみました。 今回使用するガジェット Fire TV Stick 旧バージョン - 第二世代 Fire TV Stick 4K対応バージョン ※現在は、4K対応のニューバージョンが販売されています。Alexaにも対応してるスグレモノです。 小型でWiFiとHDMIポートがあれば使

                  FireTV Stickは一本あると何かと役に立つ 🌴 officeの杜 🥥
                • ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」

                  チキン@ライター @HeroofChickens フリーランスのライター4年目。リストラがきっかけ。Kindle出版1位、Kindleプロデュースで1位・ベストセラー取得。商業出版のブックライティング中(2024年の5月ごろ出版かな?) webwhiter-skill.com/job/

                    ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
                  • 私のセキュリティ情報収集法を整理してみた(2024年版) - Fox on Security

                    新年あけましておめでとうございます。毎年この時期に更新している「私の情報収集法(2024年版)」を今年も公開します。 ■はじめに サイバー攻撃は国境を越えて発生するため、ランサムウェア、フィッシング、DDoS攻撃など、近年のサイバー脅威の常連となっている攻撃者(脅威アクター)が主に海外にいることを考えると、世界の脅威動向を理解することが年々重要になっています。 海外から日本の組織が受けるサイバー攻撃の多くでは、国際共同オペレーション等の一部のケースを除き、日本の警察が犯罪活動の協力者(出し子、買い子、送り子)を摘発することはあっても、サイバー攻撃の首謀者(コアメンバー)を逮捕するまで至るケースはほとんどありません。 誤解を恐れずに言えば、日本の組織は海外からの攻撃を受け続けているのに、海外で発生したインシデントや攻撃トレンドの把握が遅れ、対策が後手に回っているケースも多いように感じます。最

                      私のセキュリティ情報収集法を整理してみた(2024年版) - Fox on Security
                    • 「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】

                        「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】
                      • AIにコードまるごと解説してもらうと、界王拳100倍すぎる件|深津 貴之 (fladdict)

                        最近、見つけた技。知らない言語でコードかくときChatGPTが神すぎる。 そのテクはなんと「プログラミングまるごとを、ChatGPTに突っ込む」というもの。 え、そんなの動くの!? と思うんですが、動くんですそんなの。直球すぎて盲点だった。 試してみよう たとえば、下記はGoogleサービス使って、リアルタイムにマイク音声を文字起こしするサンプル。 こいつをチャットAIで音声会話をやろうと、軽く読んでみたのですが…うん、よくわからん。 Pythonだし、Streamingだし、音声の操作だし、普段つかわない技術が満載すぎてわからん。 雑にコードを突っ込むと人生が解決こういう時は 以下のコードを、わかりやすく説明して。 <以下、上記コードをそのままコピペ>とすると……  こうなる。 このコードは、Google Cloud Speech-to-Text APIを使用して、マイクからの音声をリア

                          AIにコードまるごと解説してもらうと、界王拳100倍すぎる件|深津 貴之 (fladdict)
                        • 【2020年】AWS全サービスまとめ | DevelopersIO

                          このエントリは、2018年、2019年に公開したAWS全サービスまとめの2020年版です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。 こんにちは。サービスグループの武田です。 このエントリは、2018年、2019年に公開した AWS全サービスまとめの2020年版 です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。どちらがいいのか正直わからないので、フィードバックなどあれば参考にさせていただきます。 2020-01-08 リクエストがあったためAmazon Mechanical Turkを追加。 2018年まとめ 【2018年】AWS全サービスまとめ その1(コンピューティング、ストレージ、データベー

                            【2020年】AWS全サービスまとめ | DevelopersIO
                          • AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇る スクエニAI部に経緯を訊いた

                            スクウェア・エニックスは、堀井雄二氏が手掛けた『ポートピア連続殺人事件』を題材に、先端AI技術を搭載したテックプレビュー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を2023年4月24日にSteamにて無料配信すると発表した。また公式サイトをオープンしている。 AIの一分野である自然言語処理(NLP)の技術を使った「NLPアドベンチャー」と銘打っており、日英の言語に対応している。 「THE PORTOPIA SERIAL MURDER CASE」とは 『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』(以下、THE PORTOPIA SERIAL MURDER CASE)は、『ドラゴンクエスト』シリーズで知られる堀井雄二氏が手掛けたADV

                              AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇る スクエニAI部に経緯を訊いた
                            • 「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能

                              「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画…

                                「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能
                              • iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)

                                アプリや専用デバイスを使った、日本語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識のテクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日本語対応の自動文字起こしアプリ コミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が開発を手がけている。 モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/

                                  iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)
                                • サクっと作った英語学習サービスがバズって1週間以内にやったこと - Qiita

                                  要約 Qiita記事がトレンドインすると、瞬間的にWebサービスへのアクセス数が急増するが、数日でアクセス数は元に戻ってしまう。 そこで以下の施策を速攻で打ってバズっているうちに有益な学びを得るべきと考え、本記事はそれを実践した結果を実データと合わせて説明している。 事前登録フォームを作って興味を持ってくれた人と繋がる Twitterやはてぶのコメントからどうして興味を持ってくれたのか考察する 有料機能を作って単なるバズなのか、本当にニーズがあるのか判断できるようにする バズる1週間前にやっていたこと 3日でツールをサクッと作った 英語面接や仕事で海外の人とやりとりをするときに「ちょっと難しい質問」をされると、途端に5歳児になってしまう自分が恥ずかしくなり、DeepLで英語の勉強をするツールを作った。 自分が使うだけのつもりだったので、アカウント機能などはなく、コアな機能1つを実装しただけ

                                    サクっと作った英語学習サービスがバズって1週間以内にやったこと - Qiita
                                  • ChatGPTで無料で学べる『英会話AI』の作り方(神田敏晶) - エキスパート - Yahoo!ニュース

                                    KNNポール神田です。 まさにChatGPTやPerplexity AIとの出会いで、インターネット黎明期のような感動の日々である。 『英語は10000時間でモノになる』の著者であり、デジタルハリウッド大学の教授である橋本大也氏のFaceBookで気になる『プロンプト』が紹介されていた。 出典:デジタルハリウッド大学 無料で学べるすごい英会話AIのつくりかた 1 Voice Control for ChatGPT( https://chrome.google.com/webstore/detail/voice-control-for-chatgpt/eollffkcakegifhacjnlnegohfdlidhn)の拡張をChromeブラウザーにインストールする。これでChatGPTと音声で対話することができる。GPTがしゃべりだす。 2 ChatGPTに下記のプロンプトを入れてから英語で

                                      ChatGPTで無料で学べる『英会話AI』の作り方(神田敏晶) - エキスパート - Yahoo!ニュース
                                    • DX意味わからん。「IT革命」と何が違うの?という話|広木大地(日本CTO協会理事/レクター取締役)

                                      はじめにこの記事は、Engineering Manager Advent Calendar 2020の24日目の記事す。 職種を越えた働き方を模索するWeb Engineerのtrebyさんと、技術を突き詰めたいiOS Developerのbanjunさんの二人のパーソナリティをつとめるpodcast「きのこるエフエム」でお話してきた今話題のキーワードDXについてのお話を再編して記事にしたものです。 実際のpodcastについては以下からどうぞ。 いつの間にか"DX"がデジタルトランスフォーメーションにとられてた。trebyさん(以下敬称略) これは、我々のマイブームというか、最近、「DXっていいよね?」っていうふうに私が謎掛けをしますと、banjunさんが、「DX、わからん!」というふうに返すんです。 banjunさん(以下敬称略) 「DXって何ですか?何がいいんですか?」っていう話です

                                        DX意味わからん。「IT革命」と何が違うの?という話|広木大地(日本CTO協会理事/レクター取締役)
                                      • 中学生でもわかる深層学習

                                        第1章 理論編 ・深層学習とは (p.13-) ・ニューラルネットワークとは (p.31-) ・どうやって学習するか: 勾配降下法 (p.57-) ・深層学習の注意点 (p.91-) 第2章 応用編 ・分類問題 (p.110-) ・画像認識 (p.120-) ・音声認識/自然言語処理 (p.151-) ・講演のまとめ (p.167-)

                                          中学生でもわかる深層学習
                                        • 「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり

                                          「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり 2020年3月、あるツイートが話題となった。 聴覚障がい者であるくらはしさんが、アニメ音響監督の岩浪美和さんの手掛けた作品がいかに聞きやすいかを記したものだ。 岩浪音響監督は「サイコパス」シリーズ、『ガールズアンドパンツァー』、『ソードアートオンライン』、「ジョジョ」シリーズなど、数多くの人気作を手掛けている。 聴覚障害者としてアニメの声の聞き取りやすさをメモしているんですが、PSYCHO-PASS 3の聞き取りやすさは神レベルで、無線声、ささやき、室内残響の演出でもほとんどすべて聞き取れる。 音響監督は岩浪美和さんという方で、担当作品を調べてみたら「聞き取りにくかったメモ」に該当なしでした。 — くらはし (@TareObjects) March 27, 202

                                            「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり
                                          • 30分で完全理解するTransformerの世界

                                            はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                                              30分で完全理解するTransformerの世界
                                            • 年末年始に振り返る 2021年の人工知能10大トレンドと必読論文

                                                年末年始に振り返る 2021年の人工知能10大トレンドと必読論文
                                              • 動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に

                                                Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ(背景雑音)を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。 実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除

                                                  動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に
                                                • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                                                  会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                                                    文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                                                  • スマートスピーカーって一時期流行ったけど(追記あり)

                                                    今も使っている人どれくらいいるんだろう。 これ、DSの脳トレから全然進化してないじゃん 〜追記〜 みんな色々な意見ありがとう。賛否両方読ませてもらってます!恥ずかしい?何が? ちなみに、DSのゲームは「脳を鍛える大人のDSトレーニング」ね。くりぃむしちゅーのANN第96回に出てきた、きいろ!も聞き取ってくれないというエピソードから考えたネタだよ。さすがにスマートスピーカーはそこまで精度悪くない。 くりぃむしちゅーのオールナイトニッポンおもしろいからみんな聞いてな!

                                                      スマートスピーカーって一時期流行ったけど(追記あり)
                                                    • 生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について

                                                      各種方針等 arrow_forward_ios生成系AIについて 生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について 2023年4月3日 東京大学理事・副学長(教育・情報担当) 太田 邦史 この半年ほどの期間で、生成系人工知能(Generative AI)が複数発表され、社会的に大きな注目を集めています。基本的には、インターネット上などに存在する既存の文章や画像イメージを大量に機械学習し、これに強化学習を組み合わせなどして、一定レベルの品質の文章や画像を生成するシステムです。とくに、2022年11月に公開され、話題になった大規模言語モデルChatGPTはバージョンが更新され、最新のGPT-4では生成される文章などの質や正確性が著しく向上しています1。 これらの生成系AIは、平和的かつ上手に制御して利用すれば、人類の

                                                        生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について
                                                      • 録音した音声を文字起こしするiOS無料アプリ「Qyur2(キュルキュル)」 - ITmedia Mobile

                                                        Qyur2のユニークな仕掛けも特徴的で、昭和のカセットレコーダーのようなUI(ユーザーインタフェース)に、キュルキュルと音を立てながらデータを巻き戻せる。 この他にも、英会話用コンテンツ「完全改訂版 起きてから寝るまで英語表現700」「究極の英会話(上)中学1~2年レベル英文法100パーセント攻略」において、音声に合わせてテキストを表示する機能も追加した。 対応OSのバージョンはiOS 10.0以降を搭載したiPhone、iPad、iPod touchで、対応言語は日本語、英語、中国語(簡体、繁体)。ダウンロードは無料だが、英語・英会話用、中国語、韓国語コンテンツ、自動文字変換を利用するにはポイントの購入が必要となる。 【訂正:2019年6月7日21時22分 初出時に、タイトルに「無料アプリ」と記載していましたが、自動文字変換は有償のため、タイトルから「無料」を削除いたしました】 【訂正:

                                                          録音した音声を文字起こしするiOS無料アプリ「Qyur2(キュルキュル)」 - ITmedia Mobile
                                                        • GPTの仕組みをちゃんと勉強したい本 - きしだのHatena

                                                          やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。 まず理論的な概要。 機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。 最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。 深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山 英樹,二反田 篤史,田村 晃裕,井上 中順,牛久 祥孝サイエンス社Amazon で、もういきなり作る。 トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる

                                                            GPTの仕組みをちゃんと勉強したい本 - きしだのHatena
                                                          • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                                                            株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                                                              超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                                                            • AI・Python活用レシピ100選 - Qiita

                                                              ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

                                                                AI・Python活用レシピ100選 - Qiita
                                                              • Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話

                                                                稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h 電話を取ると「Google マップです」と男性から電話。 Google「この電話はGoogle マップの店舗様の営業時間を自動で確認しております」 ぼく「はい」 Google「そちらの営業時間を教えてください」 ぼく「月曜から金曜の9時〜18時です」 Google「土曜日と日曜日の営業時間も教えてください」 ↓ 2022-01-25 10:26:41 稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h ぼく「土曜と日曜は普通にお休みです」 Google「確認させてください。そちらの営業時間は月曜から金曜の9時〜18時でよろしいでしょうか」 ぼく「はい」 Google「ありがとうございました(電話を切りそうな気配)」 ぼく「待って。参

                                                                  Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話
                                                                • 2022年版買ってよかったもの - 花見川の日記

                                                                  今年は色々買ったので、よかったものを書く。 ※広告リンクは一切無いのでご安心を 長いです。目次付けとくんで、気になるものを読むか、少しずつ読むといいです。 Fire TV Stick 第3世代 操作が軽快 めっちゃ高機能 USB音声出力が可能 Kindle Fire HDがあると漫画も大画面で 他にも色々できる NobSound NS-01G Pro + Edifier P12 コスパ最高のアンプとパッシブスピーカーのセット SC-PMX90 音質がやたら良くて多機能 SCPMX-90の弱点 AirPods Pro2 かわいい 思わぬ外部音取り込み機能での生活向上 ノイズキャンセリングの使用感 完全ワイヤレスイヤホンとしての音質は 全体として ルミナスのスチールラック スチールラックを信じよ メリット デメリット 全体として スマートホームハブ2種 2つ買った経緯 2種スマートハブのメリッ

                                                                    2022年版買ってよかったもの - 花見川の日記
                                                                  • 実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

                                                                    (Image by Pixabay) この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。 後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきま

                                                                      実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
                                                                    • 文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉

                                                                      どうもこんにちは、あんどう(@t_andou)です。 前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。 「Youtubeの」と書いていますが、実際はどの動画でも対応してます。 前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え 上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続 下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロード ここにドラッグ&ドロップでアップできます 大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更 ファイル名に合わせて変更してください 5.全セルを実行 あと

                                                                        文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
                                                                      • 「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】

                                                                          「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】
                                                                        • 「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売

                                                                          「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売 インプレスグループでIT関連メディア事業を展開する株式会社インプレス(本社:東京都千代田区、代表取締役社長:小川 亨)は、「音源分離」技術の基礎から実装までを解説した書籍『Pythonで学ぶ音源分離 機械学習実践シリーズ』を2020年8月24日(月)に発売いたします。 ■身近なものにも活用される技術「音源分離」の基礎と実装を解説する一冊 近年、AIスピーカをはじめとした、人が話した音声を理解する音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは、1人の声を聞き取ることを想定しており、聞きたい声以外の音が入ってきたときには、聞きたい声を正確に聞き取ることが難しくなります。「音源分離」とはこのようにさまざまな音が混ざった中から、欲しい音だけを抽出する技術で

                                                                            「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売
                                                                          • 宇多丸が『STAND BY MEドラえもん2』を大酷評!久しぶりの超絶ダメ出しにファンは歓喜

                                                                            映画ウェブサイトより ライムスター宇多丸がパーソナリティーを務めるTBSラジオ『アフターシックスジャンクション』内のコーナー「週刊映画時評ムービーウォッチメン」で『STAND BY ME ドラえもん2』を批評。「蛇足にして駄作中の駄作」とまでこき下ろした。 11月20日公開の同映画は2014年に公開された『STAND BY ME ドラえもん』の続編で、原作のなかでも名作として知られる「おばあちゃんのおもいで」をベースに、オリジナルストーリーを加えて再構築したもの。前作で描かれたのび太の結婚前夜から続く、結婚式当日にのび太が逃げ出したことから巻き起こる騒動を描いている。 宇多丸はこの映画の脚本を担当した山崎貴について「作り手としての志が二次創作っぽい人」で「良く言えば原作に対して山崎貴流の解釈というのを毎回している」と評し、「彼が美談として提示するものに、割とはっきりとした倫理的違和感を抱く

                                                                              宇多丸が『STAND BY MEドラえもん2』を大酷評!久しぶりの超絶ダメ出しにファンは歓喜
                                                                            • Developers Summit 2020 資料リンクまとめ - Qiita

                                                                              毎年開催されているデブサミが2020/2/13(木)、14(金)で開催されましたね。 現時点で公開されている資料のリンクをまとめました。 よろしければご活用ください。 はじめに 公式サイト - Developers Summit 2020 登壇者名は敬称略させていただいています。 Twitterアカウントについては、多くの方はデブサミ公式サイトの紹介ページに記載がありましたので、そちらから引用させていただきました。記載がなかった方については、調べて分かった方のみ記載しています。 資料について、見つけられなかった or 元々資料を使用していない 方についてはレポート記事を見つけられた方のみ、そのリンクを記載しています。 なお、こういったリンクまとめをQiitaに投稿するのは初めてなので何か問題がある場合や、リンクの間違い等ありましたらコメントいただけると助かります。 2/13 13-A-1

                                                                                Developers Summit 2020 資料リンクまとめ - Qiita
                                                                              • もはや人間と区別がつかない次元に。多言語で歌う機能も搭載したSynthesizer Vの破壊力|DTMステーション

                                                                                驚異的に進化したSynthesizer V AI まずは、バックグラウンドや機能、性能といったものを紹介する前に、私がSynthesizer V Pro Studioの1.5.0を使って打ち込んだ、弦巻マキの歌声をちょっと聴いてみてください。 いかがですか?従来の歌声合成の概念を覆すレベルに来ていると思いませんか?これは、2年前のコミケでDTMステーションCreativeからリリースしたoyasumiという曲の冒頭部分。そのときは声優の小岩井ことりさんにボーカルをお願いし、囁くように優しく歌ってもらったので、弦巻マキにも、それっぽく歌わせて仕上げてみたのです。本来、弦巻マキは「アニメキャラっぽい雰囲気の元気な女の子」というイメージの歌声ですが、そことはだいぶ違ったニュアンスの歌声になっているのも感じられたと思います。 「自動処理」メニューにある「自動ピッチ調整(カスタマイズ)」を選択する

                                                                                  もはや人間と区別がつかない次元に。多言語で歌う機能も搭載したSynthesizer Vの破壊力|DTMステーション
                                                                                • 2020年買って良かったものまとめ - いくらどん

                                                                                  Twitter,マシュマロ等で何人かからリクエスト来ていたので、今年買って良かったものをまとめました。 #買って良かった2020 今年は(去年から同棲はしていたが)正式に入籍したこと、引っ越しを2回したことで、かなり生活環境の構築に対してお金をかけた気もします。 買ったもの多いし、色々な商品に出会ったので。買ってよかったものは本当はもーっとたくさんあって、「コレよかった〜!」って思えるものは100個以上あったのですが、なんとか頑張って30個くらいまで絞り込みました。 家具・収納小物編 Francfranc クリスマスツリー スターターセット 150cm ピンク 去年から欲しがっていて、今年やっと買えたもの。 自分の知るクリスマスツリーの中で一番可愛くて豪華。 枝葉やポール、脚部まで含めて徹底したピンク、ふんわりしたカラーのリボンやチェーン、LEDライト、ツリースカート、そして大量のオーナメ

                                                                                    2020年買って良かったものまとめ - いくらどん