並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 2094件

新着順 人気順

"The Model"の検索結果121 - 160 件 / 2094件

  • Inkbase: Programmable Ink

    James Lindenbaum Szymon Kaliski Joshua Horowitz November 2022 With pen and paper, anyone can write a journal entry, draw a diagram, perform a calculation, or sketch a cartoon. Digital tablets like the iPad or reMarkable can adapt pen and paper into the world of digital media. In doing so, they trade away some of paper’s advantages like cheapness and tangibility. In exchange, we get new computation

      Inkbase: Programmable Ink
    • Zoom iOS App Sends Data to Facebook Even if You Don’t Have a Facebook Account

      As people work and socialize from home, video conferencing software Zoom has exploded in popularity. What the company and its privacy policy don't make clear is that the iOS version of the Zoom app is sending some analytics data to Facebook, even if Zoom users don't have a Facebook account, according to a Motherboard analysis of the app. This sort of data transfer is not uncommon, especially for F

        Zoom iOS App Sends Data to Facebook Even if You Don’t Have a Facebook Account
      • Flutter Project Structure: Feature-first or Layer-first?

        When building large Flutter apps, one of the first things we should decide is how to structure our project. This ensures that the entire team can follow a clear convention and add features in a consistent manner. So in this article we'll explore two common approaches for structuring our project: feature-first and layer-first. We'll learn about their tradeoffs and identify common pitfalls when tryi

          Flutter Project Structure: Feature-first or Layer-first?
        • Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras

          Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models Cerebras open sources seven GPT-3 models from 111 million to 13 billion parameters. Trained using the Chinchilla formula, these models set new benchmarks for accuracy and compute efficiency. Abstract State-of-the-art language models are extremely challenging to train; they require huge compute budgets, complex distributed com

            Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
          • Stable Diffusionを利用し、Apple Silicon Macローカルでテキストから画像を生成できるアプリ「AI Photo」がリリース。

            Stable Diffusionを利用し、Apple Silicon Macローカルでテキストから画像を生成できるアプリ「AI Photo」がリリースされています。詳細は以下から。 Stable Diffusionは独ミュンヘン大学のCompVisグループが開発したtext-to-imageモデルで、ディープラーニングを利用しテキストから画像を生成することができますが、このStable DiffusionのMacクライアントとなる「AI Photo」が新たにリリースされています。 Run Stable Diffusion locally on your Mac. AI Photo is a user-friendly text-to-image generator app that creates photos and artworks in literal seconds, all of

              Stable Diffusionを利用し、Apple Silicon Macローカルでテキストから画像を生成できるアプリ「AI Photo」がリリース。
            • 思考の連鎖(Chain of Thought)でChatGPTからよりよい応答を引き出そう

              思考の連鎖とは OpenAI Cookbookの「Techniques to improve reliability」ページでは言語モデルからの信頼性を高めるためのノウハウが紹介されています。そこでは「明確な指示を与える」「複雑なタスクは幾つかのタスクに分割する」「モデルがタスクから逸脱することがないようにプロンプトを構造化する」といったことが書かれています。そして、その中には「答えを出す前に説明するようにモデルに指示する」(Prompt the model to explain before answering)という項目があります。 この中で出てくる概念に「思考の連鎖」(Chain of Thought、CoT)というものがあります。思考の連鎖とは「複雑なタスクを最終的に解決する過程における、中間的な推測ステップの連なり」といえます。こういう表現だと少し分かりにくいのですが、「リンゴが

                思考の連鎖(Chain of Thought)でChatGPTからよりよい応答を引き出そう
              • Amazon SageMakerを利用した効率的な機械学習 with Rust | ⬢ Appirits spirits

                はじめに デジタルイノベーション部の浅田です。 クラウドを利用した開発を行うにあたって、クラウドを上手く利用しようとすればするほど、ローカル開発環境と本番環境(クラウド環境)とでの実装方法の差分を少なくすることが効率的に開発を行う上で重要になってきます。 例えば、Amazon DynamoDBを利用してサービスを開発しようとすると、ローカル開発環境でどのように開発を進めるか?という課題が生まれます。DynamoDBであれば、ローカルのエミュレータが提供されているので、それを利用するという解決策が考えられます。 機械学習においても、ローカル開発環境と本番環境とのやり方を統一できたほうが、効率的に開発ができます。 その一つのやり方が、Amazon SageMaker(以下SageMaker)を利用することで、ローカル環境と本番環境とで差分の少ない、統一的な方法で開発することです。 また、機械学

                  Amazon SageMakerを利用した効率的な機械学習 with Rust | ⬢ Appirits spirits
                • 元クラフトワークのカール・バルトス、バンドの活動が停滞した80年代について語る 「大きな間違いだった」 - amass

                  元クラフトワークのカール・バルトス、バンドの活動が停滞した80年代について語る 「大きな間違いだった」 クラフトワーク(Kraftwerk)に1975年から1990年まで在籍したカール・バルトス(Karl Bartos)は、回顧録『The Sound of the Machine: My Life In Kraftwerk And Beyond』の発売にあわせ、英ガーディアン紙の取材に応じ、クラフトワークの活動が停滞した80年代について語っています。「大きな間違いだった」。 1981年、クラフトワークはツアーを成功させ、翌年には『The Model』でイギリスNo.1を獲得しました。彼らは創造的にも商業的にも頂点に達しますが、クラフトワークはその後、スタジオに姿を消し、ほぼ10年間ライヴ活動を行いませんでした。「80年代はずっと眠っていたんだ」「本当に著しく大きな間違いだった」とバルトスは

                    元クラフトワークのカール・バルトス、バンドの活動が停滞した80年代について語る 「大きな間違いだった」 - amass
                  • Replit — How to train your own Large Language Models

                    Header ImageHow Replit trains Large Language Models (LLMs) using Databricks, Hugging Face, and MosaicML IntroductionLarge Language Models, like OpenAI's GPT-4 or Google's PaLM, have taken the world of artificial intelligence by storm. Yet most companies don't currently have the ability to train these models, and are completely reliant on only a handful of large tech firms as providers of the techn

                      Replit — How to train your own Large Language Models
                    • Raspberry PiでHDMIディスプレイを調査する[EDID/CEC]

                      Raspberry PiでHDMIディスプレイを調査する[EDID/CEC] Mzyy94 Multimedia 11 May, 2020 みなさん、テレビやディスプレイに備わるHDMIの情報を確認する必要に迫られることはありませんか? 1年に一度くらいはありますよね。映像がうまく映らなかったり、操作がうまくいかなかったり。 そんな時にパッとHDMIの情報を確認できるようになっておくべく、Raspberry PiとHDMIケーブルで調査できるようになっておきましょう。 はい、今回はRaspberry PiとHDMI EDID/CECの話。 目次 Open 目次 HDMI EDID CEC Raspberry PiのHDMI出力 HDMIの強制設定 ホットプラグ対応 初期CEC無効化 ブースト EDID調査 EDIDのダンプ EDID解析 CEC調査 接続機器の一覧 テレビのスリープ デバイ

                        Raspberry PiでHDMIディスプレイを調査する[EDID/CEC]
                      • Why I no longer recommend Julia

                        For many years I used the Julia programming language for transforming, cleaning, analyzing, and visualizing data, doing statistics, and performing simulations. I published a handful of open-source packages for things like signed distance fields, nearest-neighbor search, and Turing patterns (among others), made visual explanations of Julia concepts like broadcasting and arrays, and used Julia to ma

                        • How diffusion models work: the math from scratch | AI Summer

                          Diffusion models are a new class of state-of-the-art generative models that generate diverse high-resolution images. They have already attracted a lot of attention after OpenAI, Nvidia and Google managed to train large-scale models. Example architectures that are based on diffusion models are GLIDE, DALLE-2, Imagen, and the full open-source stable diffusion. But what is the main principle behind t

                            How diffusion models work: the math from scratch | AI Summer
                          • Build a CQRS event store with Amazon DynamoDB | Amazon Web Services

                            AWS Database Blog Build a CQRS event store with Amazon DynamoDB The command query responsibility segregation (CQRS) pattern, derived from the principle of command-query separation, has been popularized by the domain-driven design community. CQRS architectures that use event sourcing save generated events in an append-only log called an event store. By using event sourcing, you can, among other ben

                              Build a CQRS event store with Amazon DynamoDB | Amazon Web Services
                            • 訳文;「"好奇心駆動型の冒険"とでも言うべき特殊なタイプの冒険に報酬を与えるゲームをつくりたい、それが『Outer Wilds』の主目的です」A・ビーチャム氏の論文より - すやすや眠るみたくすらすら書けたら

                              翻訳の秋が今年もきました。また去年みたく面白い記事をいくつか見つけて勝手に紹介したいところです! {また翌年も、これに関連する論考を勝手に紹介しました。(訳文;「そこにはなんの報酬もありません。このゲームが何を為していてどう機能しているのか、ただただ見ていたかったのです」ジェンキンズ、カーソン、ホッキング、『Outer Wilds』へつづく2,3の論考) 訳文2万1000字+感想1万6千字くらい。 ※言及したトピックについてネタバレした文章がつづきます。ご注意ください※ 訳した人・なぜ訳した? 内容ざっと説明 ('23追記)ネタバレをある程度避けて論文のエッセンスを味わえる、オフィシャルな記事がオフィシャルな人々から出たよ 論文訳文 アレックス・ビーチャム著『Outer Wilds: a game of curiosity-driven space exploration :: Unive

                                訳文;「"好奇心駆動型の冒険"とでも言うべき特殊なタイプの冒険に報酬を与えるゲームをつくりたい、それが『Outer Wilds』の主目的です」A・ビーチャム氏の論文より - すやすや眠るみたくすらすら書けたら
                              • the peculiar case of japanese web design - sabrinas.space

                                the peculiar case of japanese web design a project that should not have taken 8 weeks how is japanese web design different? in this 2013 Randomwire blog post, the author (David) highlighted an intriguing discrepancy in Japanese design. While the nation is known abroad for minimalist lifestyles, their websites are oddly maximalist. The pages feature a variety of bright colours (breaking the 3 colou

                                • 関数型言語で DDD - Domain Modeling Made Functional: Tackle Software Complexity with Domain-Driven Design and F# - Shin x Blog

                                  オブジェクト指向言語でドメインモデルを実装することが当然のように行われていますが、Go で開発したり、Haskell で遊んだりしている中で、他のパラダイムの言語で実装するのはどうなんだろうかという想いがありました。 そんな時に出会ったのが、Domain Modeling Made Functional: Tackle Software Complexity with Domain-Driven Design and F# という本です。 概要 構成 ドメインを理解し、モデリングする 端的なフレーズ Database-Drive-Design や Class-Driven-Design との違い 型、型、型 関数型言語による実用例 恐怖のモナド さいごに 参考 概要 本書は、とある会社の受注とその関連業務をドメインとし、モデリングして、実装していくという内容です。紙ベースで行われている業務

                                    関数型言語で DDD - Domain Modeling Made Functional: Tackle Software Complexity with Domain-Driven Design and F# - Shin x Blog
                                  • Continuous Delivery for Machine Learning

                                    Automating the end-to-end lifecycle of Machine Learning applications Machine Learning applications are becoming popular in our industry, however the process for developing, deploying, and continuously improving them is more complex compared to more traditional software, such as a web service or a mobile application. They are subject to change in three axis: the code itself, the model, and the data

                                      Continuous Delivery for Machine Learning
                                    • Text Classification: All Tips and Tricks from 5 Kaggle Competitions

                                      In this article, I will discuss some great tips and tricks to improve the performance of your text classification model. These tricks are obtained from solutions of some of Kaggle’s top NLP competitions. Namely, I’ve gone through: Jigsaw Unintended Bias in Toxicity Classification – $65,000 Toxic Comment Classification Challenge – $35,000 Quora Insincere Questions Classification – $25,000 Google QU

                                        Text Classification: All Tips and Tricks from 5 Kaggle Competitions
                                      • What We Learned from a Year of Building with LLMs (Part I)

                                        Join the O'Reilly online learning platform. Get a free trial today and find answers on the fly, or master something new and useful. Learn more It’s an exciting time to build with large language models (LLMs). Over the past year, LLMs have become “good enough” for real-world applications. The pace of improvements in LLMs, coupled with a parade of demos on social media, will fuel an estimated $200B

                                          What We Learned from a Year of Building with LLMs (Part I)
                                        • How Google SRE and Developers Collaborate - IT Revolution

                                          July 12, 2022 How Google SRE and Developers Collaborate This post was adapted from the paper “How Google SRE and Developers Collaborate by Christof Leng, Tracy Ferrell, Alex Bligh, Michal Gefen, Betsy Beyer with help from Salim Virji from the Spring 2022 DevOps Enterprise Journal. Google’s Site Reliability Engineering (SRE) team is a specialist engineering organization focused on designing, buildi

                                            How Google SRE and Developers Collaborate - IT Revolution
                                          • ChatGPTのAPIをハッキングしたら80以上の「秘密のプラグイン」を発見したという報告

                                            OpenAIが開発した対話型AIのChatGPTには、「インターネット上の最新情報を収集する」といった機能を追加できるプラグインシステム「ChatGPT plugins」が用意されています。ハッカーのrez0(@rez0__)氏が、ChatGPTのAPIをハッキングすることで公開されていない80以上の「秘密のプラグイン」を発見したと報告しました。 Hacker Uncovers Secret ChatGPT Plugins in OpenAI API | Deepleaps https://deepleaps.com/news/hacker-uncovers-secret-chatgpt-plugins-in-openai-api/ ChatGPTは膨大な量のテキストを基にトレーニングして構築された対話型AIであり、さまざまなプラグインを使用して能力を拡張することが可能です。たとえば、トレ

                                              ChatGPTのAPIをハッキングしたら80以上の「秘密のプラグイン」を発見したという報告
                                            • ベルフェイス 調達した52億円の使い道 ※動画あり|bellFace 中島一明

                                              ベルフェイスは今月、 THE FUNDを新規リード投資家として、インキュベイトファンドなど既存投資家を含む8社を引受先とした第三者割当増資と、みずほ銀行・りそな銀行・商工中金等からのデットファイナンスを合わせ総額52億円の資金調達を実施した。 2015年創業・社員120名・常に最低限の資金で生き延びてきたベルフェイスにとって正に「翼をさずける」だ。 これでようやくバッターボックスに立てる。 社内は大いに盛り上がり、そして一部の社員は安堵しているようだった。 しかし今回の調達、一言で言えば「大変」だった。 ベルフェイスが属している「セールステック」領域には途方もない可能性があるし、その市場を獲るための基盤作りも、研究投資をしてきた自負もあった。しかし、それを信じてくれる投資家は多くなかった。 国内外のキャピタルに「そんなに伸びるとは思えない」「もっと実績が出るまで様子見」と言われながら何ヵ月

                                                ベルフェイス 調達した52億円の使い道 ※動画あり|bellFace 中島一明
                                              • Building the SwiftUI Sample App in Flutter

                                                Very Good Ventures re-built the SwiftUI sample app to do a side-by-side comparison of SwiftUI and Flutter, and found there’s a lot to love about both. Kevin Gray (Principal Engineer), Martin Rybak (Engineering Director), and Albert Lardizabal (Principal Engineer) contributed to the writing of this article and the development of the Flutter Landmarks project. Read more of their content on the Very

                                                  Building the SwiftUI Sample App in Flutter
                                                • BtoBの購買活動は本当に論理的・合理的か? | knowledge / baigie

                                                  BtoBは情緒購買ではなく論理購買である。BtoBは経済合理性にもとづいて意思決定される。これらはいずれもBtoBでよく言われる「定説」ですが、この記事ではそんな定説に疑問を投げかけてみたいと思います。 人は予想通りに不合理であるBtoBの意思決定をしているのは、結局は人間です。そして個々の人間は、実は論理的・合理的な考えがそれほど得意ではありません。 ノーベル賞受賞の行動経済学者ダニエル・カーネマンの名著『ファスト&スロー』(2012年)では、常時オートモードで運転し、主に反射的な意思決定を得意とするシステム1と、論理思考などの熟考が可能だが負荷が高く怠け癖があるシステム2を中心に、人の判断を誤らせるバイアスについて、詳しく解説されています。 先入観から論理性や妥当性を見失い、すぐに思いつく結論に飛びつき、直前に見た数字に流されて過大/過小評価をし、関係ない事柄を結び付けてデータを見誤り

                                                    BtoBの購買活動は本当に論理的・合理的か? | knowledge / baigie
                                                  • ChatGPT/GPT-3を使って文脈のある会話を実現する(+LINE Bot化) - Qiita

                                                    🌟2023.3.2にChatGPTのAPIが公開されたため、タイトルと本文の一部を修正しました!やったね! 話題のChatGPTは超すごいし楽しいのですが、API経由で使えないため私たち開発者からするとちょっともの足りません(まもなくAPIが公開されるという話も) されました!(2023.3.2)。 とはいえ、キャラ設定や会話の前提を会話の都度入力するのは面倒だったりしますのと、ChatGPTと同じOpenAIから提供されているGPT-3モデル「text-davinci-003」はそもそも1問1答で、同じ話題を複数ターンに渡って継続することができません。 そこで、OpenAIの外側で工夫してキャラ設定や前提、文脈を維持した会話を実現しようというのがこちらの記事になります。 要約 会話の履歴を含めてリクエストすることで文脈を意識させることができるようになる(ChatGPTでは履歴ごと受け付

                                                      ChatGPT/GPT-3を使って文脈のある会話を実現する(+LINE Bot化) - Qiita
                                                    • Train, Test, and Validation Sets

                                                      Train, Test, and Validation Sets By Jared Wilber In most supervised machine learning tasks, best practice recommends to split your data into three independent sets: a training set, a testing set, and a validation set. To demo the reasons for splitting data in this manner, we will pretend that we have a dataset made of pets of the following two types: Cats:      Dogs: For each pet in the dataset we

                                                        Train, Test, and Validation Sets
                                                      • How GitHub Copilot is getting better at understanding your code

                                                        EngineeringProductHow GitHub Copilot is getting better at understanding your codeWith a new Fill-in-the-Middle paradigm, GitHub engineers improved the way GitHub Copilot contextualizes your code. By continuing to develop and test advanced retrieval algorithms, they’re working on making our AI tool even more advanced. To make working with GitHub Copilot feel like a meeting of the minds between deve

                                                          How GitHub Copilot is getting better at understanding your code
                                                        • ML and NLP Research Highlights of 2020

                                                          The selection of areas and methods is heavily influenced by my own interests; the selected topics are biased towards representation and transfer learning and towards natural language processing (NLP). I tried to cover the papers that I was aware of but likely missed many relevant ones—feel free to highlight them in the comments below. In all, I discuss the following highlights: Scaling up—and down

                                                            ML and NLP Research Highlights of 2020
                                                          • What is Image-to-Text? - Hugging Face

                                                            Image to text models output a text from a given image. Image captioning or optical character recognition can be considered as the most common applications of image to text. Use Cases Image Captioning Image Captioning is the process of generating textual description of an image. This can help the visually impaired people to understand what's happening in their surroundings. Optical Character Recogn

                                                              What is Image-to-Text? - Hugging Face
                                                            • TechCrunch

                                                              Tesla profits fell 55% to $1.13 billion in the first quarter from the same year-ago period as a protracted EV price-cutting strategy and “several unforeseen challenges” cut into the autom Tesla has officially revealed a new Performance variant of the recently refreshed Model 3 sedan as the company looks to fight off receding demand. The new version of the Model 3, which starts at $52,9

                                                                TechCrunch
                                                              • Minigpt-4

                                                                MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models The recent GPT-4 has demonstrated extraordinary multi-modal abilities, such as directly generating websites from handwritten text and identifying humorous elements within images. These features are rarely observed in previous vision-language models. We believe the primary reason for GPT-4's advanced multi-modal

                                                                • Using GitHub Copilot in your IDE: Tips, tricks and best practices

                                                                  AI has become an integral part of my workflow these days, and with the assistance of GitHub Copilot, I move a lot faster when I’m building a project. Having used AI tools to increase my productivity over the past year, I’ve realized that similar to learning how to use a new framework or library, we can enhance our efficiency with AI tools by learning how to best use them. In this blog post, I’ll s

                                                                    Using GitHub Copilot in your IDE: Tips, tricks and best practices
                                                                  • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

                                                                    前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

                                                                      はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
                                                                    • 脳も身体も鍛えるために、この「4つのエクササイズ」に取り組もう | Kwik Brain: 脳トレコーチが伝授するブレインハック術──遺伝子が求めている動きとは

                                                                      今回はこの連載の特別編として、「マインド・マッスル・コネクション」というコンセプトを紹介する。意識と筋肉のつながりのことで、脳が筋肉に指令を出すだけでなく、筋肉が脳に作用するという考え方だ。 そのために私の親友で、ポッドキャスト「The Model Health Show」のホストであり、ベストセラー『SLEEP 最高の脳と身体をつくる睡眠の技術』の著者でもあるショーン・スティーブンソンにゲストとして来てもらった。脳を鍛えることができる具体的なエクササイズを紹介してもらうことにしよう。 ジム・クイック マインド・マッスル・コネクションについて教えてください。 ショーン・スティーブンソン 筋肉と同じように脳も成長し発達するが、衰えもする。これは恐ろしいことだ。さらに、年をとるにつれて脳の体積や機能が低下する傾向がある。これから紹介する大きな戦略のひとつとして、筋肉の働きと実際の脳の働きのつな

                                                                        脳も身体も鍛えるために、この「4つのエクササイズ」に取り組もう | Kwik Brain: 脳トレコーチが伝授するブレインハック術──遺伝子が求めている動きとは
                                                                      • The State of Machine Learning Frameworks in 2019

                                                                        In 2018, PyTorch was a minority. Now, it is an overwhelming majority, with 69% of CVPR using PyTorch, 75+% of both NAACL and ACL, and 50+% of ICLR and ICML. While PyTorch’s dominance is strongest at vision and language conferences (outnumbering TensorFlow by 2:1 and 3:1 respectively), PyTorch is also more popular than TensorFlow at general machine learning conferences like ICLR and ICML. While som

                                                                          The State of Machine Learning Frameworks in 2019
                                                                        • TechCrunch

                                                                          Tesla profits fell 55% to $1.13 billion in the first quarter from the same year-ago period as a protracted EV price-cutting strategy and “several unforeseen challenges” cut into the autom Tesla has officially revealed a new Performance variant of the recently refreshed Model 3 sedan as the company looks to fight off receding demand. The new version of the Model 3, which starts at $52,9

                                                                            TechCrunch
                                                                          • The architecture of today's LLM applications

                                                                            We want to empower you to experiment with LLM models, build your own applications, and discover untapped problem spaces. That’s why we sat down with GitHub’s Alireza Goudarzi, a senior machine learning researcher, and Albert Ziegler, a principal machine learning engineer, to discuss the emerging architecture of today’s LLMs. In this post, we’ll cover five major steps to building your own LLM app,

                                                                              The architecture of today's LLM applications
                                                                            • Chimera Painter

                                                                              Chimera Painter is a demo that lets you run wild by drawing out creature shapes that become fully fleshed out by our CreatureGAN machine learning model, which was trained on hundreds of thousands of 2D renders of 3D creature models. The model looks at the body parts you drew on your creature and uses them to decide how to style it for you. Painting is a highly creative, iterative process. What can

                                                                              • Web Neural Network API

                                                                                Web Neural Network API W3C Candidate Recommendation Draft, 5 May 2024 More details about this document This version: https://www.w3.org/TR/2024/CRD-webnn-20240505/ Latest published version: https://www.w3.org/TR/webnn/ Editor's Draft: https://webmachinelearning.github.io/webnn/ Previous Versions: https://www.w3.org/TR/2024/CRD-webnn-20240503/ History: https://www.w3.org/standards/history/webnn/ Im

                                                                                • Whisperで話者分離ができる!会議や録音データを素早く文字起こし - Qiita

                                                                                  この記事はSafie Engineers' Blog! Advent Calendar 8日目の記事です。 はじめに 映像から取得できる1時間程度の映像(ムービークリップ)を文字起こししたいという要望があったので、文字起こしシステムを作ってみました。 備忘録も兼ねて実施したことをまとめておこうと思います。whisperはOpenAI社が公開している高精度の文字起こしが可能なモデルになります。 文字起こしにwhipsperを使った決め手は以下です。 AWS Transcribeより高精度 pythonで素早く試せる MITライセンス AWS Transcribeで可能な話者分離ができないことが懸念でしたが、話者分離も別のモデルを組み合わせれば実現可能と思いwhipserに決めました。 アーキテクチャ whisper単体では処理の限界があったので、いくつか工夫を加えた結果上記のようなアーキテク

                                                                                    Whisperで話者分離ができる!会議や録音データを素早く文字起こし - Qiita