並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 28 件 / 28件

新着順 人気順

音声認識の検索結果1 - 28 件 / 28件

  • 音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション

    日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。 このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人+男性3人+女の子1人=7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば

      音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション
    • Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania

      Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcrib‪e‬(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う

        Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania
      • 村井純教授の1月16日最終講義全文書き起こし

        Ruby on Rails, Web Services, Software Development, Startups 概要 「日本のインターネットの父」と呼ばれる慶応大環境情報学部教授の村井純さん(64)が定年を迎え、16日、最終講義があった。村井さんは「インターネットに国境はない。国や政府が分断したり規制しようとしたりする試みは続くだろうが、若い人たちで守ってほしい」と呼びかけた。 https://www.asahi.com/ 村井先生の最終講義。16年ぶりに村井先生の講義を聞いて懐かしくなりました。せっかく良いことをたくさんおっしゃっていたので人力で書き起こしをしました。(Amazonウィッシュリスト) 講義全文 共同授業担当 佐藤特任准教授(以下教員): そろそろ始めましょうか。 村井: はい。それでは皆さん、こんにちは。インターネットの、2019年秋学期の最終回ということで集まっ

          村井純教授の1月16日最終講義全文書き起こし
        • [速報]「GitHub Copilot X」発表、GPT-4ベースで大幅強化。AIにバグの調査依頼と修正案を指示、ドキュメントを学習し回答も

          [速報]「GitHub Copilot X」発表、GPT-4ベースで大幅強化。AIにバグの調査依頼と修正案を指示、ドキュメントを学習し回答も GitHubは、GTP-4をベースに「GitHub Copilot」の機能を大幅に強化した「GitHub Copilot X」を発表しました。 GitHub Copilot is already helping developers code faster in their IDEs. But what’s next? Our answer is GitHub Copilot X. It’s our vision for the future of AI-powered software development. Check it out https://t.co/3Xrn7dAPgi — GitHub (@github) March 22, 202

            [速報]「GitHub Copilot X」発表、GPT-4ベースで大幅強化。AIにバグの調査依頼と修正案を指示、ドキュメントを学習し回答も
          • 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

            Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

              「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
            • 機械学習が独学できる日本語Youtube難易度別まとめ - Qiita

              こんにちは。 在宅の機会が増えて以来Youtubeを見る機会が増え、機械学習などが勉強できるチャンネルをいくつか探しては見ていました。探した中でよかったと思ったものをメモしていたのですが、せっかくなので公開したいと思います。日本語のソースがあるもののみ対象にしており、『これ無料でいいのか?』と思ったチャンネルを紹介したいと思います。主観で以下のレベルに分けましたがあくまで参考程度にお願いいたします。 基本:Pythonを触ってみた人 Pythonの説明・動かし方などを解説していて、動画によっては踏み込んだ内容になる 応用:アルゴリズムを使いこなしたい人 「model.fit(X, y)して動かしてみた」よりも踏みこみ、Python自体の説明は少ない 発展:研究開発もしたい人 最新の手法の仕組みの理解などが主眼であり、Pythonの解説はほぼ無い もしおすすめのチャンネルございましたらぜひコ

                機械学習が独学できる日本語Youtube難易度別まとめ - Qiita
              • FireTV Stickは一本あると何かと役に立つ 🌴 officeの杜 🥥

                数あるガジェットの中でも、コスパに優れていて実用的なガジェットというものは意外と少ないです。そんなガジェットのジャンルの中でこの要件を満たすものが「セットトップボックス」と呼ばれるもの。これまでも、Chromecastのクローンのような「Ezcast」や「AppleTV」を買ったことがあります。 ただこれらは使い勝手が微妙だったり、拡張性の面でちょっと・・・しかし、FireTV StickはベースがAndroidという事だけあって、拡張性でも小型なので携帯性にも優れていて仕事でも使えそうです。ということで、使い倒してみました。 ※Fire TV Stickは最近不穏な噂や制限だらけになってきたので、ChromecastやNebula 4Kに自分はお引越ししました。 Chromecastを購入して色々検証してみた Anker Nebula 4K Streaming DongleはFire T

                  FireTV Stickは一本あると何かと役に立つ 🌴 officeの杜 🥥
                • ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」

                  チキン@ライター @HeroofChickens フリーランスのライター4年目。リストラがきっかけ。Kindle出版1位、Kindleプロデュースで1位・ベストセラー取得。商業出版のブックライティング中(2024年の5月ごろ出版かな?) webwhiter-skill.com/job/

                    ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
                  • 私のセキュリティ情報収集法を整理してみた(2024年版) - Fox on Security

                    新年あけましておめでとうございます。毎年この時期に更新している「私の情報収集法(2024年版)」を今年も公開します。 ■はじめに サイバー攻撃は国境を越えて発生するため、ランサムウェア、フィッシング、DDoS攻撃など、近年のサイバー脅威の常連となっている攻撃者(脅威アクター)が主に海外にいることを考えると、世界の脅威動向を理解することが年々重要になっています。 海外から日本の組織が受けるサイバー攻撃の多くでは、国際共同オペレーション等の一部のケースを除き、日本の警察が犯罪活動の協力者(出し子、買い子、送り子)を摘発することはあっても、サイバー攻撃の首謀者(コアメンバー)を逮捕するまで至るケースはほとんどありません。 誤解を恐れずに言えば、日本の組織は海外からの攻撃を受け続けているのに、海外で発生したインシデントや攻撃トレンドの把握が遅れ、対策が後手に回っているケースも多いように感じます。最

                      私のセキュリティ情報収集法を整理してみた(2024年版) - Fox on Security
                    • 「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】

                        「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】
                      • AIにコードまるごと解説してもらうと、界王拳100倍すぎる件|深津 貴之 (fladdict)

                        最近、見つけた技。知らない言語でコードかくときChatGPTが神すぎる。 そのテクはなんと「プログラミングまるごとを、ChatGPTに突っ込む」というもの。 え、そんなの動くの!? と思うんですが、動くんですそんなの。直球すぎて盲点だった。 試してみよう たとえば、下記はGoogleサービス使って、リアルタイムにマイク音声を文字起こしするサンプル。 こいつをチャットAIで音声会話をやろうと、軽く読んでみたのですが…うん、よくわからん。 Pythonだし、Streamingだし、音声の操作だし、普段つかわない技術が満載すぎてわからん。 雑にコードを突っ込むと人生が解決こういう時は 以下のコードを、わかりやすく説明して。 <以下、上記コードをそのままコピペ>とすると……  こうなる。 このコードは、Google Cloud Speech-to-Text APIを使用して、マイクからの音声をリア

                          AIにコードまるごと解説してもらうと、界王拳100倍すぎる件|深津 貴之 (fladdict)
                        • 【2020年】AWS全サービスまとめ | DevelopersIO

                          このエントリは、2018年、2019年に公開したAWS全サービスまとめの2020年版です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。 こんにちは。サービスグループの武田です。 このエントリは、2018年、2019年に公開した AWS全サービスまとめの2020年版 です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。どちらがいいのか正直わからないので、フィードバックなどあれば参考にさせていただきます。 2020-01-08 リクエストがあったためAmazon Mechanical Turkを追加。 2018年まとめ 【2018年】AWS全サービスまとめ その1(コンピューティング、ストレージ、データベー

                            【2020年】AWS全サービスまとめ | DevelopersIO
                          • AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇る スクエニAI部に経緯を訊いた

                            スクウェア・エニックスは、堀井雄二氏が手掛けた『ポートピア連続殺人事件』を題材に、先端AI技術を搭載したテックプレビュー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を2023年4月24日にSteamにて無料配信すると発表した。また公式サイトをオープンしている。 AIの一分野である自然言語処理(NLP)の技術を使った「NLPアドベンチャー」と銘打っており、日英の言語に対応している。 「THE PORTOPIA SERIAL MURDER CASE」とは 『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』(以下、THE PORTOPIA SERIAL MURDER CASE)は、『ドラゴンクエスト』シリーズで知られる堀井雄二氏が手掛けたADV

                              AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇る スクエニAI部に経緯を訊いた
                            • 「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能

                              「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画…

                                「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能
                              • iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)

                                アプリや専用デバイスを使った、日本語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識のテクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日本語対応の自動文字起こしアプリ コミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が開発を手がけている。 モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/

                                  iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)
                                • サクっと作った英語学習サービスがバズって1週間以内にやったこと - Qiita

                                  要約 Qiita記事がトレンドインすると、瞬間的にWebサービスへのアクセス数が急増するが、数日でアクセス数は元に戻ってしまう。 そこで以下の施策を速攻で打ってバズっているうちに有益な学びを得るべきと考え、本記事はそれを実践した結果を実データと合わせて説明している。 事前登録フォームを作って興味を持ってくれた人と繋がる Twitterやはてぶのコメントからどうして興味を持ってくれたのか考察する 有料機能を作って単なるバズなのか、本当にニーズがあるのか判断できるようにする バズる1週間前にやっていたこと 3日でツールをサクッと作った 英語面接や仕事で海外の人とやりとりをするときに「ちょっと難しい質問」をされると、途端に5歳児になってしまう自分が恥ずかしくなり、DeepLで英語の勉強をするツールを作った。 自分が使うだけのつもりだったので、アカウント機能などはなく、コアな機能1つを実装しただけ

                                    サクっと作った英語学習サービスがバズって1週間以内にやったこと - Qiita
                                  • ChatGPTで無料で学べる『英会話AI』の作り方(神田敏晶) - エキスパート - Yahoo!ニュース

                                    KNNポール神田です。 まさにChatGPTやPerplexity AIとの出会いで、インターネット黎明期のような感動の日々である。 『英語は10000時間でモノになる』の著者であり、デジタルハリウッド大学の教授である橋本大也氏のFaceBookで気になる『プロンプト』が紹介されていた。 出典:デジタルハリウッド大学 無料で学べるすごい英会話AIのつくりかた 1 Voice Control for ChatGPT( https://chrome.google.com/webstore/detail/voice-control-for-chatgpt/eollffkcakegifhacjnlnegohfdlidhn)の拡張をChromeブラウザーにインストールする。これでChatGPTと音声で対話することができる。GPTがしゃべりだす。 2 ChatGPTに下記のプロンプトを入れてから英語で

                                      ChatGPTで無料で学べる『英会話AI』の作り方(神田敏晶) - エキスパート - Yahoo!ニュース
                                    • DX意味わからん。「IT革命」と何が違うの?という話|広木大地(日本CTO協会理事/レクター取締役)

                                      はじめにこの記事は、Engineering Manager Advent Calendar 2020の24日目の記事す。 職種を越えた働き方を模索するWeb Engineerのtrebyさんと、技術を突き詰めたいiOS Developerのbanjunさんの二人のパーソナリティをつとめるpodcast「きのこるエフエム」でお話してきた今話題のキーワードDXについてのお話を再編して記事にしたものです。 実際のpodcastについては以下からどうぞ。 いつの間にか"DX"がデジタルトランスフォーメーションにとられてた。trebyさん(以下敬称略) これは、我々のマイブームというか、最近、「DXっていいよね?」っていうふうに私が謎掛けをしますと、banjunさんが、「DX、わからん!」というふうに返すんです。 banjunさん(以下敬称略) 「DXって何ですか?何がいいんですか?」っていう話です

                                        DX意味わからん。「IT革命」と何が違うの?という話|広木大地(日本CTO協会理事/レクター取締役)
                                      • 中学生でもわかる深層学習

                                        第1章 理論編 ・深層学習とは (p.13-) ・ニューラルネットワークとは (p.31-) ・どうやって学習するか: 勾配降下法 (p.57-) ・深層学習の注意点 (p.91-) 第2章 応用編 ・分類問題 (p.110-) ・画像認識 (p.120-) ・音声認識/自然言語処理 (p.151-) ・講演のまとめ (p.167-)

                                          中学生でもわかる深層学習
                                        • 「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり

                                          「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり 2020年3月、あるツイートが話題となった。 聴覚障がい者であるくらはしさんが、アニメ音響監督の岩浪美和さんの手掛けた作品がいかに聞きやすいかを記したものだ。 岩浪音響監督は「サイコパス」シリーズ、『ガールズアンドパンツァー』、『ソードアートオンライン』、「ジョジョ」シリーズなど、数多くの人気作を手掛けている。 聴覚障害者としてアニメの声の聞き取りやすさをメモしているんですが、PSYCHO-PASS 3の聞き取りやすさは神レベルで、無線声、ささやき、室内残響の演出でもほとんどすべて聞き取れる。 音響監督は岩浪美和さんという方で、担当作品を調べてみたら「聞き取りにくかったメモ」に該当なしでした。 — くらはし (@TareObjects) March 27, 202

                                            「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり
                                          • 30分で完全理解するTransformerの世界

                                            はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                                              30分で完全理解するTransformerの世界
                                            • 年末年始に振り返る 2021年の人工知能10大トレンドと必読論文

                                                年末年始に振り返る 2021年の人工知能10大トレンドと必読論文
                                              • 動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に

                                                Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ(背景雑音)を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。 実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除

                                                  動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に
                                                • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                                                  会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                                                    文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                                                  • スマートスピーカーって一時期流行ったけど(追記あり)

                                                    今も使っている人どれくらいいるんだろう。 これ、DSの脳トレから全然進化してないじゃん 〜追記〜 みんな色々な意見ありがとう。賛否両方読ませてもらってます!恥ずかしい?何が? ちなみに、DSのゲームは「脳を鍛える大人のDSトレーニング」ね。くりぃむしちゅーのANN第96回に出てきた、きいろ!も聞き取ってくれないというエピソードから考えたネタだよ。さすがにスマートスピーカーはそこまで精度悪くない。 くりぃむしちゅーのオールナイトニッポンおもしろいからみんな聞いてな!

                                                      スマートスピーカーって一時期流行ったけど(追記あり)
                                                    • 生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について

                                                      各種方針等 arrow_forward_ios生成系AIについて 生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について 2023年4月3日 東京大学理事・副学長(教育・情報担当) 太田 邦史 この半年ほどの期間で、生成系人工知能(Generative AI)が複数発表され、社会的に大きな注目を集めています。基本的には、インターネット上などに存在する既存の文章や画像イメージを大量に機械学習し、これに強化学習を組み合わせなどして、一定レベルの品質の文章や画像を生成するシステムです。とくに、2022年11月に公開され、話題になった大規模言語モデルChatGPTはバージョンが更新され、最新のGPT-4では生成される文章などの質や正確性が著しく向上しています1。 これらの生成系AIは、平和的かつ上手に制御して利用すれば、人類の

                                                        生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について
                                                      • 録音した音声を文字起こしするiOS無料アプリ「Qyur2(キュルキュル)」 - ITmedia Mobile

                                                        Qyur2のユニークな仕掛けも特徴的で、昭和のカセットレコーダーのようなUI(ユーザーインタフェース)に、キュルキュルと音を立てながらデータを巻き戻せる。 この他にも、英会話用コンテンツ「完全改訂版 起きてから寝るまで英語表現700」「究極の英会話(上)中学1~2年レベル英文法100パーセント攻略」において、音声に合わせてテキストを表示する機能も追加した。 対応OSのバージョンはiOS 10.0以降を搭載したiPhone、iPad、iPod touchで、対応言語は日本語、英語、中国語(簡体、繁体)。ダウンロードは無料だが、英語・英会話用、中国語、韓国語コンテンツ、自動文字変換を利用するにはポイントの購入が必要となる。 【訂正:2019年6月7日21時22分 初出時に、タイトルに「無料アプリ」と記載していましたが、自動文字変換は有償のため、タイトルから「無料」を削除いたしました】 【訂正:

                                                          録音した音声を文字起こしするiOS無料アプリ「Qyur2(キュルキュル)」 - ITmedia Mobile
                                                        • GPTの仕組みをちゃんと勉強したい本 - きしだのHatena

                                                          やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。 まず理論的な概要。 機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。 最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。 深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山 英樹,二反田 篤史,田村 晃裕,井上 中順,牛久 祥孝サイエンス社Amazon で、もういきなり作る。 トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる

                                                            GPTの仕組みをちゃんと勉強したい本 - きしだのHatena
                                                          1