並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 34 件 / 34件

新着順 人気順

deeplearningの検索結果1 - 34 件 / 34件

  • LLM時代のX情報収集術|べいえりあ

    AI for Everyoneについては日本語版もあるのと、どちらのコースも日本語字幕付きで見られる(多分機械翻訳での英語字幕からの翻訳だが、翻訳の質は悪くない)ので、英語分からなくてある程度何とかなるんじゃないかと思います。 あと、余力のある人、最新のNLP研究を理解したい人はこちらの本を読むことをオススメします。アルゴリズムの詳細は必ずしも理解しなくても良いですが、どんなタスクがあるのかは理解しておいた方が良いかと思います。 NLPの知識がLLMを応用する上で実際にどう役に立つかですが、例えばで言うとNLP的には対話の中には「タスク指向型対話(task-oriented dialogue)」と「雑談(chit-chat dialogue)」があります。それぞれ対話の中で重要視されるものから評価の仕方まで全然違うのですが、NLPをやらずにLLMをやっている人と話しているとこれらをごっちゃ

      LLM時代のX情報収集術|べいえりあ
    • BitNetから始める量子化入門

      はじめに BitNet、最近話題になっていますね。 そもそも量子化って何?という方もいると思うので、この記事は DeepLearning の量子化から入り、その上で BitNet の触りについて見ていこうと思います。色々とわかってないことがあり、誤読してそうなところはそう書いてるのでご了承ください。 図を作るのは面倒だったので、様々な偉大な先人様方の図やスライドを引用させていただきます。 量子化 DeepLearning における量子化 DeepLearning の学習・推論は基本 float32 で行います。これを int8 や Nbit に離散化することを量子化といいます。 計算に使う値は、モデルの重み、アクティベーション(ReLUとか通した後)、重みの勾配等があります。 学習時については一旦置いておいて、この記事では推論における量子化について焦点をあてます。推論時に量子化の対象となる

        BitNetから始める量子化入門
      • 外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

        はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている 対策案: ページ構造を意識した形で各文章を格納する 他の対策案 聞き方を明確にする 類似度を測るクエリ文章を置き換える 不要そうな文章をデータから削除する データ自体をLLMで整形し直す Case2: 未知の単語を含む 仮説: ニャオハ

          外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog
        • Amazon Bedrock Is Now Generally Available – Build and Scale Generative AI Applications with Foundation Models | Amazon Web Services

          AWS News Blog Amazon Bedrock Is Now Generally Available – Build and Scale Generative AI Applications with Foundation Models Update October 10, 2023 — Amazon Bedrock is now available in 3 regions globally: US East (N. Virginia), US West (Oregon), and Asia Pacific (Tokyo). This April, we announced Amazon Bedrock as part of a set of new tools for building with generative AI on AWS. Amazon Bedrock is

            Amazon Bedrock Is Now Generally Available – Build and Scale Generative AI Applications with Foundation Models | Amazon Web Services
          • LLM Fine-Tuning (東大松尾研LLM講座 Day5資料)

            東大松尾研サマースクール2023「大規模言語モデル」Day5の講義で使用した資料です。大規模言語モデルの Fine-Tuning をテーマに、Instruction Tuning および Parameter Efficient Fine-Tuning について体系的に紹介することを目指した内容となっています。 講座リンク: https://deeplearning.jp/llm2023/

              LLM Fine-Tuning (東大松尾研LLM講座 Day5資料)
            • 生成AIを賢くするには「メガプロンプト」がお勧め、ファインチューニングは有害?

              生成AI(人工知能)の活用においては、大規模言語モデル(LLM)に与えるプロンプト(指示文)の工夫が重要だ。最新の研究で、プロンプトは長く詳細であるほど良好な結果が得られることが分かっており「メガプロンプト(巨大プロンプト)」という言葉すら登場しているほどだ。 LLMに与えるプロンプトというと、米OpenAI(オープンAI)が提供するChatGPTのようなチャットボットの入力画面に打ち込む数行のテキストを想像しがちだ。しかし先進的なAI研究者は最近、紙に印刷すると1~2ページにも及ぶような、とても長いプロンプトの開発に取り組んでいるのだという。 「私たちのチームではそれをメガプロンプトと呼んでいる」。ディープラーニング(深層学習)の著名研究者で、AI教育サービスを手掛ける米DeepLearning.AI(ディープラーニングドットAI)の創業者であるAndrew Ng(アンドリュー・ウン)氏

                生成AIを賢くするには「メガプロンプト」がお勧め、ファインチューニングは有害?
              • Amazon Bedrock が一般利用可能に – 基盤モデルを利用した生成系 AI アプリケーションの構築とスケール | Amazon Web Services

                Amazon Web Services ブログ Amazon Bedrock が一般利用可能に – 基盤モデルを利用した生成系 AI アプリケーションの構築とスケール 本日、Amazon Bedrockが一般提供を開始したことをお知らせします。また、MetaのLlama 2 13B および 70B パラメータのモデルが、近日中に Amazon Bedrock で利用可能になることもお伝えします。 今年の4月、AWS で生成系 AI を構築するための新しいツールセットの一部として Amazon Bedrock を発表しました。Amazon Bedrockは、AI21 Labs、Anthropic、Cohere、Stability AI、Amazon などの先進的な AI 企業の高性能な基盤モデル (Foundation Models) を選択できるフルマネージドサービスです。プライバシーとセ

                  Amazon Bedrock が一般利用可能に – 基盤モデルを利用した生成系 AI アプリケーションの構築とスケール | Amazon Web Services
                • 「質問に答えるAIではなく、質問をするAIを作りたい」 ChatGPTを“論文のツッコミ役”にするためのプロンプト

                  「ChatGPT Meetup」は、プロンプティングからOpenAI API、さらには周辺のライブラリやHubのエコシステムまで広く活用の助けになる知見を共有し、みんなで手を動かして楽しむためのコミュニティです。1回目に登壇したのは、合同会社Georepublic Japanの田島逸郎 氏。ChatGPTを聞き手にするための取り組みについて発表しました。 リスキリングで自然言語処理を学んだ 田島逸郎氏:それでは、「ChatGPTを聞き手にしよう」という表題で、田島が発表いたします。 まず、私の自己紹介をすると、5月25日生まれの38歳です。Georepublic Japanという会社で、地理空間情報の研究開発をしています。 少し前まで社会人博士をやっていました。博士を取りたいと思っていて、コンピューターによって知識のやり取りがどう変わっていくのかみたいなことを社会学的に分析しています。 3

                    「質問に答えるAIではなく、質問をするAIを作りたい」 ChatGPTを“論文のツッコミ役”にするためのプロンプト
                  • Building and Evaluating Advanced RAG Applications

                    Learn methods like sentence-window retrieval and auto-merging retrieval, improving your RAG pipeline's performance beyond the baseline.Learn evaluation best practices to streamline your process, and iteratively build a robust system.Dive into the RAG triad for evaluating the relevance and truthfulness of an LLM's response:Context Relevance, Groundedness, and Answer Relevance. Retrieval Augmented G

                      Building and Evaluating Advanced RAG Applications
                    • Finetuning Large Language Models

                      Learn the fundamentals of finetuning a large language model (LLM).Understand how finetuning differs from prompt engineering, and when to use both.Get practical experience with real data sets, and how to use techniques for your own projects. Join our new short course, Finetuning Large Language Models! Learn from Sharon Zhou, Co-Founder and CEO of Lamini, and instructor for the GANs Specialization a

                        Finetuning Large Language Models
                      • 生成AIの進化に置いてかれないためにフォロー必須なアカウント47選 - Qiita

                        弊社Nucoでは、他にも様々なお役立ち記事を公開しています。よかったら、Organizationのページも覗いてみてください。 また、Nucoでは一緒に働く仲間も募集しています!興味をお持ちいただける方は、こちらまで。 世界を代表するAI企業編 世界を代表するAI企業のアカウントを紹介しますが、各社についての詳細説明はこちらの記事を見ていただければと思います。 〜対話型AI編~ OpenAI もはや解説不要。とりあえず脳死でフォロー。 11月に作成されたChatGPTアカウントも。どのように運用されていくのか要注目。 Anthropic ChatGPTの競合として、Claudeという生成AIを開発、運用する企業です。 InflectionAI 創業1年目に、13億ドルの資金調達をしたことやGAFAMやAnthropicの経営者と共にホワイトハウスへ招集されたことで話題となった企業です。 独

                          生成AIの進化に置いてかれないためにフォロー必須なアカウント47選 - Qiita
                        • Generative AI with Large Language Models

                          In Generative AI with Large Language Models (LLMs), you’ll learn the fundamentals of how generative AI works, and how to deploy it in real-world applications. By taking this course, you'll learn to: - Deeply understand generative AI, describing the key steps in a typical LLM-based generative AI lifecycle, from data gathering and model selection, to performance evaluation and deployment - Describe

                            Generative AI with Large Language Models
                          • サマースクール2023:大規模言語モデル講座 | Deep Learning JP

                            本講座はサマースクールの一環として大規模言語モデル(Large Language Models, LLM)に関して体系的に学べる講座を目的として開催されます。 具体的には以下のスキルを身につける事を目的としています。 LLMの原理について,事前学習からRLHFまでの一連の流れや意味合いを理解する LLMの学習や推論を支える技術について理解する 既に公開されているLLMモデルやAPIなどの活用方法を理解する 本講座では、東京大学Deep Learning基礎講座・応用講座を公開してきた松尾研究室が全面的に演習コンテンツを監修・作成しています。実践的な演習を通して、手を動かしながら技術を深く理解し、幅広いトピックを網羅します。 ※本講座はページ下部の前提条件をご確認の上、条件が当てはまる方を対象としています。 LLMのモデルのアーキテクチャーまで取り扱う実践的な講義のため、ご自身のレベルに見合

                              サマースクール2023:大規模言語モデル講座 | Deep Learning JP
                            • 生成系AIを活用するための7つのAWSトレーニングコースを無償・低料金で提供開始 | Amazon Web Services ブログ

                              Amazon Web Services ブログ 生成系AIを活用するための7つのAWSトレーニングコースを無償・低料金で提供開始 この記事は、7 free and low-cost AWS courses that can help you use generative AI を翻訳したものです。 経験の有無に関係なく誰でも受講可能な生成系AIサービスに関するAWSのスキルトレーニング Amazonでは20年以上前から人工知能(AI)と機械学習にフォーカスしており、お客様がAmazonでご利用になる機能の多くが 機械学習によって作動しています。アマゾン ウェブ サービス(AWS)は先日、お客様が生成系AIをビジネスで容易に利用できるよう支援するいくつかの新しいイノベーションを発表しました。 生成系AIは、効率性、生産性、革新力を高めることで、お客様の事業運営の方法を大きく変える可能性を秘め

                                生成系AIを活用するための7つのAWSトレーニングコースを無償・低料金で提供開始 | Amazon Web Services ブログ
                              • Preview – Enable Foundation Models to Complete Tasks With Agents for Amazon Bedrock | Amazon Web Services

                                AWS News Blog Preview – Enable Foundation Models to Complete Tasks With Agents for Amazon Bedrock This April, Swami Sivasubramanian, Vice President of Data and Machine Learning at AWS, announced Amazon Bedrock and Amazon Titan models as part of new tools for building with generative AI on AWS. Amazon Bedrock, currently available in preview, is a fully managed service that makes foundation models (

                                  Preview – Enable Foundation Models to Complete Tasks With Agents for Amazon Bedrock | Amazon Web Services
                                • Deno in 2023

                                  In 2023, Deno shifted into high gear with respect to Node/npm compatibility and performance work, while continuing to move towards our goal of radically simplifying web development. Here’s a summary of what changed in 2023: Deno now understands package.json files and has the ability to import built-in Node modules using node: specifiers like node:fs and node:crypto. Read more. A new web server API

                                    Deno in 2023
                                  • 【DL輪読会】KAN: Kolmogorov–Arnold Networks | ドクセル

                                    【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

                                      【DL輪読会】KAN: Kolmogorov–Arnold Networks | ドクセル
                                    • Generative AI for Everyone

                                      Generative AI for EveryoneLearn how generative AI works, and how to use it in your life and at work Enroll Now Learn directly from Andrew Ng about the technology of generative AI, how it works, and what it can (and can’t) do Instructed by AI pioneer Andrew Ng, Generative AI for Everyone offers his unique perspective on empowering you and your work with generative AI. Andrew will guide you through

                                        Generative AI for Everyone
                                      • Four AI Agent Strategies That Improve GPT-4 and GPT-3.5 Performance

                                        Agentic Design Patterns Part 1 Four AI agent strategies that improve GPT-4 and GPT-3.5 performance Dear friends, I think AI agent workflows will drive massive AI progress this year — perhaps even more than the next generation of foundation models. This is an important trend, and I urge everyone who works in AI to pay attention to it. Today, we mostly use LLMs in zero-shot mode, prompting a model t

                                          Four AI Agent Strategies That Improve GPT-4 and GPT-3.5 Performance
                                        • 【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化 | ドクセル

                                          【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

                                            【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化 | ドクセル
                                          • 【PyTorch】実装有:VAEを使った継続学習異常検知手法:Continual Learning for Anomaly Detection with Variational Autoencoder - Qiita

                                            【PyTorch】実装有:VAEを使った継続学習異常検知手法:Continual Learning for Anomaly Detection with Variational AutoencoderPython機械学習DeepLearning深層学習PyTorch はじめに 継続学習(CL;Continual Learning)とは、動的に学習データが変化する環境下において、破壊的忘却することなくモデルの学習を可能とすることを目的とした機械学習の一分野となります. ※破壊的忘却とは、単一のネットワークを複数のタスクの学習に利用する場合、過去に学んだタスクに対する精度が、新しいタスクの学習時に悪化する事象のことを指します ICLRやICMLをはじめとしたAI関連のトップカンファレンスにおいても、CLに関する論文の投稿数は増加傾向にあり、注目されている分野といえます. 主にCLは識別モデルの

                                              【PyTorch】実装有:VAEを使った継続学習異常検知手法:Continual Learning for Anomaly Detection with Variational Autoencoder - Qiita
                                            • 社内勉強会で因果分析力を身につけよう! - Platinum Data Blog by BrainPad

                                              本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 技術やビジネスのナレッジ共有が文化として根付いているブレインパッドでは、日々、勉強会や講演会等が開催されています。今回は、社内で取り組んでいる因果分析勉強会をご紹介します! 記事の挨拶 こんにちは、アナリティクスコンサルティングユニットの羅(ろ)です。今回は社内で取り組んでいる因果分析勉強会についてご紹介いたします。因果分析はマーケティング施策の効果検証や新薬の治験など、効果の有無を知るための統計的手法として広く用いられています。 はじめに 開催目的と動機 ◦実務上で因果分析を効果的に活用するためには、必要なツールやコードを整備することが重要です。データ分析のための前処理や機械学習モデルの実装、因果関係の可視化ツールなど、適切なリソースを整えることで、案件において因果分析を使用するハードル

                                                社内勉強会で因果分析力を身につけよう! - Platinum Data Blog by BrainPad
                                              • AIプロンプトエンジニアに必要な6つのスキルとは

                                                プロンプトエンジニアリングは魅力的な仕事であり、プロの人工知能(AI)プロンプトエンジニアの求人の中には、年収が17万5000ドル~33万5000ドル(約2500万~4800万円)というものもある。しかし、誘導尋問ができるだけでは、優れたAIプロンプトエンジニアにはなれない。このキャリアパスで成功するためには、AIやプログラミング言語、問題解決、芸術などの専門分野の能力を併せ持っている必要がある。 プロンプトエンジニアリングは、基本的に、生成AIツールとのインタラクション(相互作用)を生み出す仕事だ。「ChatGPT」を見れば分かるように、AIとのインタラクションには対話形式を取るものもあるが、もっとプログラミング寄りで、現代のAPIの呼び出しに近い、コードの中に組み込まれたプロンプトの形を取る場合もある。単なるAPIの呼び出しと違うところは、ライブラリーのルーチンを呼び出すのではなく、ラ

                                                  AIプロンプトエンジニアに必要な6つのスキルとは
                                                • LLMOpsを推進!Azure Log Analyticsを活用したLLMの継続的な監視と改善 - AITC - ISID | AI トランスフォーメンションセンター コラム

                                                  こんにちは!AIソリューショングループの太田です。 このコラムでは、Azure Log Analyticsを使ったLLMOpsの実現方法について紹介します。 昨年から大規模言語モデル(LLM)を製品やサービスに組み込む企業が増えています。 しかし、LLMサービスの品質を維持するには、その運用にも注意を払う必要があります。 具体的には、LLMの出力の品質管理や、ユーザーからのフィードバックを元にしたプロンプトの最適化など、継続的な監視と改善が求められています。 これらの運用上の活動にAzure Log Analyticsが役立ちます。 LLMOps(LLM(Large Language Model)+ Ops(Operations))とは LLMOpsは製品に組み込まれたLLMの運用に必要なベストプラクティスの概念を指します。 例えば、LLMの運用ではLLMの出力の監視と評価とプロンプト管理

                                                    LLMOpsを推進!Azure Log Analyticsを活用したLLMの継続的な監視と改善 - AITC - ISID | AI トランスフォーメンションセンター コラム
                                                  • burn – Rust製DeepLearningフレームワークの紹介

                                                    burnはRust製の深層学習(Deep Learning)フレームワークです。 現在活発に開発が進められており、最新のコードやサンプルには、Githubリポジトリからアクセスできます。 GitHub - tracel-ai/burn: Burn is a new comprehensive dynamic Deep Learning Framework built using Rust with extreme flexibility, compute efficiency and portability as its primary goals.Burn is a new comprehensive dynamic Deep Learning Framework built using Rust with extreme flexibility, compute efficiency

                                                      burn – Rust製DeepLearningフレームワークの紹介
                                                    • CUDA&cuDNN環境構築のためのバージョン確認方法(Windows) - 101の保存箱

                                                      はじめに 深層学習技術を用いたソフトを使用する際に、CUDAとcuDNNの導入が必要なケースも増えてきました。 ダウンロードやインストールもそこそこ難易度が高いですが、インストールできたとしても動かないことがよくあります。よくある問題の1つは、バージョンの相性問題です。 そこでこの記事では、各ツールのバージョンを確認する方法を記載します。(※各ツールのインストール方法は扱いません) バージョン合わせの重要性 ハード側は、GPU ドライバーのバージョンによって、動作するCUDAバージョンが決まり1、そのCUDAバージョンによって動作するcuDNNのバージョンが決まり2ます。 この条件を満たした上でさらに、ソフト側がサポートするバージョンであること、が求められます。 ※ソフト側からすれば使いたいのはcuDNNやCUDAなので、以下のように逆の流れで決まるわけですね。 ソフトはcuDNNのバージ

                                                        CUDA&cuDNN環境構築のためのバージョン確認方法(Windows) - 101の保存箱
                                                      • 【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ | ドクセル

                                                        【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

                                                          【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ | ドクセル
                                                        • [Rust] PyTorchで作成したONNXモデルをBurnで変換して使う [Deep Learning] | DevelopersIO

                                                          Introduction burnはRust用Deep Learningフレームワークです。 現在アクティブに開発が進められているようで、 今後が期待できるプロダクトです。 公開されているMNISTデモはこちら。 今回はこのburnを用いて、ONNX形式の既存モデルを burn用モデルに変換して使ってみます。 Burn? burnは2021年にリリースされた新しめの深層学習フレームワークです。 少し使ってみた感じだと、PyTorchに近い感じです。 burnの特徴は、以下のとおりです。 Tensor Tensor(テンソル)は、深層学習フレームワークを使う際の 基本的なデータ構造であり、 多次元の数値データを表現するために使用します。 burnでも例によってTensor構造体を使います。 このあたりも既存のフレームワークを使い慣れている人なら 馴染みやすいかと思います。 バックエンド bu

                                                            [Rust] PyTorchで作成したONNXモデルをBurnで変換して使う [Deep Learning] | DevelopersIO
                                                          • Rustと機械学習ライブラリcandleで自作言語の言語モデルを自作してみた話

                                                            こんにちは、毛利です。 最近はChatGPTやLLMが盛り上がっていますね。趣味の一つに自作プログラミング言語・コンパイラがあるのですが、LLMと組み合わせてなんかできないかなぁと妄想しています。この記事ではcandleというライブラリを使って自作言語の言語モデルを自作(学習)してみた話について書きます。 TL;DR 1. candleというHuggingFaceが作っているRust言語で書けるライブラリについて一通り書いています 2. 学習させるのは自然言語ではなく、LLM向きに設計した言語を学習させることにしました。手始めに、数字の順番を逆に記述した2進数の加算の式を言語としてみました。例えば、111 + 1 = 0001. のようなものです 3. candleを使った言語モデルの実装を行いました。実装はすべて記事中に記載しています 4. 結果として、今回の実験の設定では数字の順番を逆

                                                              Rustと機械学習ライブラリcandleで自作言語の言語モデルを自作してみた話
                                                            • 達人出版会

                                                              [令和6年度]基本情報技術者 超効率の教科書+よく出る問題集 五十嵐 順子 徹底攻略 データベーススペシャリスト教科書 令和6年度 株式会社わくわくスタディワールド 瀬戸美月 著 徹底攻略AWS認定SysOpsアドミニストレーター - アソシエイト教科書&問題集[SOA-C02]対応 鮒田 文平, 長澤 美波, 日暮 拓也, 奥井 務, 渡辺 樹, 山下 千紗, 伊藤 翼 世界標準MIT教科書 アルゴリズムイントロダクション 第4版 第2巻 高度な設計と解析の手法・高度なデータ構造・グラフアルゴリズム Thomas H. Cormen, Charles E. Leiserson, Ronald L. … 問題解決の教科書  CITA式問題解決ワークブック 市岡 和之 はじめてのType-C電子工作 じがへるつ スッキリわかるJava入門 実践編 第4版 中山 清喬(著), 株式会社フレアリ

                                                                達人出版会
                                                              • AWS Skill Builder で 生成 AI を勉強する 4 ステップ | Amazon Web Services

                                                                Amazon Web Services ブログ AWS Skill Builder で 生成 AI を勉強する 4 ステップ こんにちは、AWS トレーニングデリバリーマネージャー の西村航です。 こんな悩みをかかえている方はいませんか?「生成 AI を勉強したいんだけど何から勉強すればよいだろう?」という方、または「基盤モデルをチューニングしたり自社開発したりすることに興味があるけど、どこかに勉強方法がまとまってないかな?」という方。本記事はそういった 生成 AI を勉強したい初学者の方や生成 AI を活用した開発がしたいエンジニアの方を対象にした記事になります。 どこで生成 AI を勉強するのか? AWS Skill Builder で勉強しましょう。AWS Skill Builder は AWS のオンライン学習センターです。何度でも視聴できるオンデマンドの AWS デジタルトレーニ

                                                                  AWS Skill Builder で 生成 AI を勉強する 4 ステップ | Amazon Web Services
                                                                • OpenAI's Rules for Model Behavior, Better Brain-Controlled Robots, and more

                                                                  Dear friends, In the last couple of days, Google announced a doubling of Gemini Pro 1.5's input context window from 1 million to 2 million tokens, and OpenAI released GPT-4o, which generates tokens 2x faster and 50% cheaper than GPT-4 Turbo and natively accepts and generates multimodal tokens. I view these developments as the latest in an 18-month trend. Given the improvements we've seen, best pra

                                                                    OpenAI's Rules for Model Behavior, Better Brain-Controlled Robots, and more
                                                                  • Transformerとは?AI機械学習の仕組みを解説|Udemy メディア

                                                                    「Attention」とは、深層学習モデルが学習を行う際に、入力されたデータのどの単語に注目するかを決めるための仕組みです。Transformerの「Multi-head Attention」は「Attention」が発展したもので、同時に複数の箇所に注目できます。 デコーダには、「Multi-Head Attention」と同様の機能を持つ「Masked Multi-Head Attention」という層があります。 「Masked Multi-Head Attention」は、情報の一部をマスクした状態で機能する点が特徴です。具体的には、Transformerが自身で出力した情報を隠した状態でデータを処理します。 Transformerが出力した情報を自己参照しながら学習を行ってしまうと、学習モデルが不正確になるリスクがあります。学習モデルが実際に使用される場面では、入力された情報以外

                                                                      Transformerとは?AI機械学習の仕組みを解説|Udemy メディア
                                                                    • 最近のMetric Learningの始め方(コンペを見据えて) - Qiita

                                                                      Kaggle Advent Calendar 3日目の記事です。 今回はKaggleなどのコンペで Metric Learning を試すときにとりあえず最初に実装するコードをまとめました。 UMAPを使ったembeddingの可視化とか faiss を使った検索とかはこの記事で扱ってないです。 1. Metric Learning って何? 予測値じゃなくて特徴量間の距離に注目して学習する方法 同じクラス内ではなるべく近い距離になるように 違うクラス間ではなるべく遠い距離になるように もっと詳しくしたい人は Qiita 内でもいい記事たくさんあるのでどうぞ。 モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFace #DeepLearning - Qiita Softmax関数をベースにした Deep Metri

                                                                        最近のMetric Learningの始め方(コンペを見据えて) - Qiita
                                                                      1