並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 594件

新着順 人気順

ディープラーニングの検索結果1 - 40 件 / 594件

  • AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

    2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発 医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発 大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた? AIカンニング問題を指摘した研究 一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」 高精度なニューラ

      AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
    • Winnyの金子さんのED法について | やねうら王 公式サイト

      Winnyの金子勇さんが考案された機械学習アルゴリズムED法を再現して実装した人がいていま話題になっている。 『Winny』の金子勇さんの失われたED法を求めて…いたら見つかりました https://qiita.com/kanekanekaneko/items/901ee2837401750dfdad いまから書くことは私の記憶頼りなので間違ってたらコメント欄で教えて欲しい。 1998年ごろだと思うのだが、私はWinnyの金子勇さんのホームページの熱心な読者だった。(ページも全部保存してたので私のHDDを漁れば出てくると思うが、すぐには出せない。) Winnyのβ版が発表されたのが2002年なのでそれよりはずいぶん前である。 当時、金子さんはNekoFightという3D格闘ゲームを公開されていた。そのゲームには、自動的に対戦から学習するAIが搭載されていた。 当時の金子さんのホームページの

      • 金子勇さんのED法を実装してMNISTを学習させてみた - Qiita

        追記:続きを書きました。 はじめに 先日以下の記事が投稿され、その斬新な考え方に個人的ながら衝撃を受けました。 内容をざっくり言うと、ニューラルネットワークの学習を現在の主流であるBP法(誤差逆伝播法)ではなく、ED法(誤差拡散法)という新しい学習手法を提案しているものです。 もし記事の内容が本当ならニューラルネットワークの学習がO(1)でできてしまう事になり、まさしく革命が起きてしまいます。 (結論からいうと速度面はそこまででもなかったです(それでも早くなる可能性あり)) (ただこの新手法のポテンシャルは革命を起こす可能性は秘めているといっても過言ではありません) ED法に関してネットを探すとインターネットアーカイブに情報が少し残っていました。 このページですがED法のサンプルプログラム(C言語)が残っており、このサンプルプログラムをベースにpythonで書き起こしたものが本記事となりま

          金子勇さんのED法を実装してMNISTを学習させてみた - Qiita
        • LLMの現在 - Speaker Deck

          今のLLMを取り巻く状況について紹介します。

            LLMの現在 - Speaker Deck
          • 中学生でもわかる深層学習

            第1章 理論編 ・深層学習とは (p.13-) ・ニューラルネットワークとは (p.31-) ・どうやって学習するか: 勾配降下法 (p.57-) ・深層学習の注意点 (p.91-) 第2章 応用編 ・分類問題 (p.110-) ・画像認識 (p.120-) ・音声認識/自然言語処理 (p.151-) ・講演のまとめ (p.167-)

              中学生でもわかる深層学習
            • Sakana AI

              概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既

                Sakana AI
              • ドナルド・トランプが「TikTokを禁止すると国民の敵Facebookに力を与えてしまう」と発言

                共和党大統領予備候補のドナルド・トランプ氏が、中国系ソーシャルメディアアプリのTikTokをアメリカで全面的に禁止しようとする動きについて懸念を表明しました。これは、議会が可決すれば禁止法案に署名すると述べたジョー・バイデン大統領の見解とは対照的です。 Trump says TikTok ban would empower Meta, slams Facebook https://www.cnbc.com/2024/03/11/trump-says-a-tiktok-ban-would-empower-meta-slams-facebook-as-enemy-of-the-people.html TikTok ban: House vote set for Wednesday morning https://www.axios.com/2024/03/11/tiktok-ban-congr

                  ドナルド・トランプが「TikTokを禁止すると国民の敵Facebookに力を与えてしまう」と発言
                • 自作キーボードの聖地、遊舎工房に行ってみたら、そこは沼だった(小寺信良) | テクノエッジ TechnoEdge

                  18年間テレビ番組制作者を務めたのち、文筆家として独立。家電から放送機器まで執筆・評論活動を行なう傍ら、子供の教育と保護者活動の合理化・IT化に取り組む。一般社団法人「インターネットユーザー協会」代表理事。 もういい加減にしろよと読者から怒られかねないのだが、まだまだキーボードの話である。 KeychronのK11 Proを購入し、散々いじくり回していたわけだが、まあさすがに自作までは時間ないし、キーボード改造もここまでかなと思っていた。ところが先日、PFUのHHKB Studioのお話を聞く機会があり、1995年当時の秋葉原の話などが出て、懐かしく思い出した。この記事はまもなくITmedia MONOistに掲載されると思うので、お楽しみにしていただきたい。 そのインタビューの中で、秋葉原のキーボード専門店「遊舎工房」の話が出て、そういえばまだ一度も行ったことないなと気づいた。だいたいこ

                    自作キーボードの聖地、遊舎工房に行ってみたら、そこは沼だった(小寺信良) | テクノエッジ TechnoEdge
                  • EV減速の中でもっとも注意すべき政策

                    EVシフトの減速を示すニュースが次々に発表されている。BMW、GM、フォード、テスラ、リビアン、アップルなど、多くの会社が先行きの見込みをマイナス修正。計画の先延ばしや中止など、現実に応じた修正を余儀なくされている。 ただし、こうなるのはずっと前から分かっていたことで、ようやく世間が悪夢から覚めたということになるだろう。「後出しで言うな」という人が出てきそうなので、本連載の過去記事を遡(さかのぼ)ってみた。まあ本人もいったい何時からマルチパスウェイの記事を書き始めたのかよく覚えていないので、一度おさらいしてみたかったのもある。 BEVシフトが限定的であることを最初に明確に書いたのは7年前、2017年5月の「日本車はガラケーと同じ末路をたどるのか?」だ。 そしてエンジンはなくならないという主張が同じ年の7月にある。「電動化に向かう時代のエンジン技術」という記事だ。 現在の流れに至る原因が欧州

                      EV減速の中でもっとも注意すべき政策
                    • 画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)

                      2月29日に、文化庁で「文化審議会著作権分科会」の第7回が開催されました。著作権の専門家によってその制度について議論をする場ですが、今年度は2023年7月より「AIと著作権」について議論されてきました。3月に文化庁から政府に報告する「AIと著作権に関する考え方について(素案)」の最終案に近いものが発表され、1月下旬から2月上旬にかけて募った「パブリックコメント(パブコメ)」の結果報告もされるということもあり、注目されました。登場したのは「AIと著作権に関する考え方について(素案)令和6年2月29日時点版」、パブコメの結果を受けて、これまでの内容に微修正が施されていました。しかし、そこからわかったのは、文化庁の一貫したスタンスでした。 文化庁 文化審議会 著作権分科会 法制度小委員会(第7回) パブコメへの反応は「素案の内容周知」 発表物から議論を集めたのが発表資料に「パブコメの結果」が追加

                        画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)
                      • 深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta

                        深層学習の技術が著しく進歩した結果、コンピュータビジョンや自然言語処理、音声信号処理などの分野では深層学習モデルの性能が古典的な手法のを大きく上回っており、すでにスタンダードなアプローチになっています。 しかし、テーブルデータを扱うタスクにおいては、深層学習の有効性は明らかになっていません。本記事ではテーブルデータにおける従来手法と深層学習の比較論文のご紹介をしていきます。 背景近年、テーブルデータを扱う深層学習モデルも登場し、一部の論文では決定木ベースのモデルと同等かそれ以上の性能を示しています。しかし、私が実務で試す中では決定木ベースのモデルの方が性能が高く、学習と推論が速く運用コストでも優れているため、深層学習モデル採用には至っていません。 より一般的なテーブルデータのタスクにおける、決定木ベースモデルと深層学習モデルとの性能比較の文献を調べたところ、NeurIPS 2022で発表さ

                          深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta
                        • WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場

                          WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場 ONNX Runtime WebがWebGPUに対応。Webブラウザ上でさらに高速な推論処理が可能になった。Stable Diffusion Turbo全体をWebブラウザ上で高速に実行可能で、RTX4090を用いた場合1秒以内で結果が出力される。 ONNX Runtime Webの基になっている「ONNX Runtime」はクロスプラットフォーム対応の推論エンジンです。TensorFlow、PyTorch、SciKit Learnなどをはじめとするさまざまな機械学習のモデルに対応し、これらで生成されたモデルによる推論処理をプラットフォームに依存せず実行するランタイムの役割を果たします

                            WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場
                          • Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog

                            こんにちは ハタ です。 最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います 音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります 構築していく上で色々試行錯誤したのでそれが紹介できればなと思っています どんなものを作ったか 前提知識: 配信基盤 前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompress Speach To Text コンテナイメージ まとめ We are hiring! どんなものを作ったか 今回作ったものは Mirrativで配信されるすべての音声を対象に文字起こしを行う シス

                              Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog
                            • BitNetから始める量子化入門

                              はじめに BitNet、最近話題になっていますね。 そもそも量子化って何?という方もいると思うので、この記事は DeepLearning の量子化から入り、その上で BitNet の触りについて見ていこうと思います。色々とわかってないことがあり、誤読してそうなところはそう書いてるのでご了承ください。 図を作るのは面倒だったので、様々な偉大な先人様方の図やスライドを引用させていただきます。 量子化 DeepLearning における量子化 DeepLearning の学習・推論は基本 float32 で行います。これを int8 や Nbit に離散化することを量子化といいます。 計算に使う値は、モデルの重み、アクティベーション(ReLUとか通した後)、重みの勾配等があります。 学習時については一旦置いておいて、この記事では推論における量子化について焦点をあてます。推論時に量子化の対象となる

                                BitNetから始める量子化入門
                              • Googleが高精度かつ高速にファイル形式を判別するツール「Magika」公開

                                  Googleが高精度かつ高速にファイル形式を判別するツール「Magika」公開
                                • 控え目に言って革命。OpenAI、動画生成AIモデル「Sora」発表

                                  OpenAIは2月15日(現地時間)、テキストから最大1分間の動画を生成できる動画生成AIモデル「Sora」を大量のデモ動画と共に発表した。複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を含む複雑なシーンを生成することができるという。 プロンプトから破綻のない動画を生成 Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: “Beautiful, snowy… pic.twitter.com

                                    控え目に言って革命。OpenAI、動画生成AIモデル「Sora」発表
                                  • OpenAIのサム・アルトマンCEOが数百兆円という桁外れの資金調達を計画し「半導体業界の再構築」を目指している、すでに孫正義やUAEの有力者と会談しているとの報道も

                                    ChatGPTなどの高性能AIの開発で知られるOpenAIのサム・アルトマンCEOが、世界の半導体生産能力を拡大するために数百兆円規模の資金調達を計画していることが報じられました。 Sam Altman Seeks Trillions of Dollars to Reshape Business of Chips and AI - WSJ https://www.wsj.com/tech/ai/sam-altman-seeks-trillions-of-dollars-to-reshape-business-of-chips-and-ai-89ab3db0 文章生成AIや画像生成AIなどの開発にはGPUやAI専用チップなどの計算資源が大量に必要です。OpenAIはMicrosoftと協力して大規模なスーパーコンピューターの構築に取り組んでいますが、アルトマンCEOは公の場で「十分なサービス

                                      OpenAIのサム・アルトマンCEOが数百兆円という桁外れの資金調達を計画し「半導体業界の再構築」を目指している、すでに孫正義やUAEの有力者と会談しているとの報道も
                                    • 畳み込みの仕組み | Convolution

                                      確率から画像処理まで、離散畳み込みと高速フーリエ変換(FFT) 激ムズ数え上げパズルと驚きの解法 https://youtu.be/FR6_JK5thCY フーリエ変換の解説動画 https://youtu.be/fGos3wrKeHY 【注釈】 整数のかけ算のアルゴリズムについて、FFTの"straightforward"な適用はO(N * log(n) log(log(n)) )の実行時間になる。log(log(n))の項は小さいが、2019年になってHarvey and van der Hoevenがこの項を取り除くアルゴリズムを発見した。また、O(N^2)を、必要な計算量がN^2と共に大きくなると表現したが、厳密にはこれはTheta(N^2)が意味するところである。 O(N^2)は計算量が高々N^2の定数倍になるという意味で、特に、実行時間がN^2項を持たないが有界であるアル

                                        畳み込みの仕組み | Convolution
                                      • 【書評】Pythonによる時系列予測 | DevelopersIO

                                        こんちには。 データアナリティクス事業本部 機械学習チームの中村(nokomoro3)です。 冬休みの個人的課題図書(自習)として「Pythonによる時系列予測」を読み終えましたので、感想と振り返りを書いておこうと思います。 書籍情報 以下の書籍になります。 Pythonによる時系列予測 | マイナビブックス 発売 : 2023年10月 翻訳本であり原著は以下となります Time Series Forecasting in Python 発売 : 2022年08月 概要 概要として本書に記載されていることと、記載されてないことを紹介します。 記載されていること(感想含む) 記載されていることは以下のようになっています。 時系列タスクの説明 トレンド、季節性、残差という3成分に分けられることの説明 ランダムウォークという解けない問題の定義 統計モデル MA、AR、ARMA、SARIMA、SA

                                          【書評】Pythonによる時系列予測 | DevelopersIO
                                        • LLM Visualization

                                          A 3D animated visualization of an LLM with a walkthrough.

                                          • 【AI動画生成】Animate Anyone 論文解説

                                            はじめに 11月も終わり、今年も残るところあと一か月となりました。 今年ももう終わるから今年中に成果を上げとけ!と言わんばかりに最近は新技術の登場が多いです。 今回取り上げるのも11月最後の大砲として出てきた新技術、その名もAnimate Anyone Animate Anyoneとはなんぞや 文字で説明するより見たほうが早い 凄くざっくり説明すると、一枚の絵と動きをボーン動画として入力すると、入力した絵がボーン動画と同じ動きをしてくれるよ!というもの。 似たようなものは今までもReferenceOnly × openpose × animatediffとかで出来ましたが、特筆すべきはその精度。 動画生成の大敵であるちらつきは一切なく、入力画像にかなり忠実な動画を生成しています。 さてこの技術、動画生成にずっと注目している自分としてはいますぐにでも弄り倒したいのですが、残念ながらコードとモ

                                              【AI動画生成】Animate Anyone 論文解説
                                            • ファッションにおける類似商品検索アルゴリズムの性能評価 - DROBEプロダクト開発ブログ

                                              概要 背景・目的 実験 実験の概要 定量評価 定性評価 おわりに 参考文献 DROBEで機械学習エンジニアをしております、藤崎です。 概要 類似商品検索の基盤となる複数の特徴抽出アルゴリズムについて、DROBEの保有するデータで評価した 定量評価によると、画像単体を入力とする ResNet-50(自己教師あり学習)とCLIPの性能が高かった 定性評価によって、取り扱うモーダルの違いによる各モデル出力の顕著な差異が確認できた 背景・目的 小売において、商品の在庫は無数に存在しています。そのため、消費者やサービス提供者が商品に紐づく情報(画像、商品の説明文など)を解釈して、特定の商品と類似したアイテムを人手で行うのは困難です。 この課題を解決するために、機械学習手法の活用が注目されています。 機械学習を用いた処理の流れは、 商品に紐づく情報を適切に 「要約」 し、 1.で 「要約」 した商品情

                                                ファッションにおける類似商品検索アルゴリズムの性能評価 - DROBEプロダクト開発ブログ
                                              • ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント

                                                GoogleやAmazonが投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス

                                                  ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント
                                                • 日本最強ユニコーンPreferred Networks、損失30億円超 第9期決算 | 自動運転ラボ

                                                  出典:官報(※クリックorタップすると拡大できます)日本を代表するユニコーン企業で、自動運転関連技術の開発も手掛けるAI(人工知能)開発企業の株式会社Preferred Networks(本社:東京都千代田区/代表取締役CEO:西川徹)。同社の第9期決算公告(2022年2月〜2023年1月)が、このほど官報に掲載された。 第9期は売上高が76億5,500万円、当期純損失は30億6,600万円であった。 これと同じタイミングで、同社は新設分割により、生成AI事業に関する新子会社「Preferred Elements」を2023年11月1日に設立することを発表した。2021年11月には、自律移動ロボット事業を手掛ける「Preferred Robotics」も新設分割により設立している。 過去の新設分割の経緯があるため、同社の決算を過去の決算と単純に比較はしにくいが、参考のために記載すると、第7

                                                    日本最強ユニコーンPreferred Networks、損失30億円超 第9期決算 | 自動運転ラボ
                                                  • 機械学習と自動微分 (2023)

                                                    「最適化法」第15回(ゲストトーク), 2023年1月20日, 同志社大学.

                                                      機械学習と自動微分 (2023)
                                                    • OpenAI Cookbook

                                                      Processing and narrating a video with GPT's visual capabilities and the TTS API

                                                        OpenAI Cookbook
                                                      • 大規模言語モデル

                                                        2023年度統計関連学会連合大会チュートリアルセッション 言語モデルと自然言語処理のフロンティア

                                                          大規模言語モデル
                                                        • ChatGPTに渡す文章の適切な区切り線について検証した記事|Clirea

                                                          はじめに大規模言語モデルであるChatGPTに文章を渡す際、適切な区切り線の使用は、情報の正確な伝達や解釈に大いに役立ちます。 この記事では、区切り線に適切なものを検証します。 区切り線とは?使い方区切り線は文章を区切る時に使用する文字列のことです。 例えば下記のようなものです。 また、使い方をまとめた記事もあるので参考にしてください。 def test() a = "a" b = "b" c = a + b print(c) ================================ ←これが区切り線 上記のコードについて教えてください 結論先に結論を言うと、4個~16個連続した「-」か「=」 もしくは8の倍数の「-」か「=」が区切り線としてはベストでした。 ---- ---------------- -------------------------------- ==== ==

                                                            ChatGPTに渡す文章の適切な区切り線について検証した記事|Clirea
                                                          • AIはどのような仕事ができるようになったのか?ChatGPTで変わる「優秀な人材」

                                                            この図はざっくりと3つの領域に分かれます。まず左下が従来のプログラミングの領域です。これは簡単に言うと「プログラムは間違ってはいけない定形な仕事を奪う」ということです。次にその上の士業が責任を取る領域です。これは「責任」を取る人がいないと成立しない仕事です。ミスが発生した際に罰則を与えるという形で、ミスの発生を防いでいます。最後に右側のホワイトカラーの仕事の領域です。ホワイトカラーの仕事は入出力が不定形であり、作業フローも非定型であったりします。そのため、多少のミスはあっても仕方ないという前提の上で仕事が行われています。 機械学習がビジネスに組み込まれるにつれ、ホワイトカラーの仕事領域はそれらによって少しずつ代替されつつあります。その図がこちらになります。 ホワイトカラーの担っていた領域は、表データの機械学習(重回帰や、Lasso回帰、SVM、RandomForest、LightGBMなど

                                                              AIはどのような仕事ができるようになったのか?ChatGPTで変わる「優秀な人材」
                                                            • NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ

                                                              先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。 これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ、「reasonableな」努力で再現できたのはわずかに7個に過ぎず、その中でも1個は論文中で主張されたベースラインを超えることは出来なかったと報告しています。 ただ、この報告はNN研究における再現性に関する議論のあくまでも一例であり、実際コロナ禍以前から「論文中ではSOTAを達成と書いているのに同じ実装をどう組んでもSOTAに達しない」みたいな業界噂話はそこかしこで耳にしたものでした。しかしながら、実際のソフトウェアやアプリケーションとしてそれらのNN手法が用いられて、尚且つその結果として何かしらの不具合でも起きない限りは、機械学習業界の

                                                                NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ
                                                              • これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z

                                                                導入 本当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。 その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。 これは本当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。 まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日本語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。 ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。 たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。 言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

                                                                  これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z
                                                                • ありがとうディープラーニングおじさん - karaage. [からあげ]

                                                                  最初に その後のディープラーニングおじさんの話です。シンデレラの続きみたいなものなので、読まないほうが夢を壊さないかもしれませんということだけ、ここで注意喚起いたします。 この記事、ずっと下書きに入ったまま公開しようか迷っていたのですが、ディープラーニングおじさんのご家族にもご了承いただき、公開することにしました。そこまで拡散は希望していないのですが、特に制限するつもりはありません(できません)。 ディープラーニングおじさんとの出会い振り返り ディープラーニングおじさん(以下Dおじさん)とは、今だに私のブログでトップのPV数を誇る記事の主役です。 上記記事ではあっさり書いていますので、もうちょっと解像度高く思い出しながら振り返ってみたいと思います。 そもそもの出会いは、社内で異動した後、たまたま隣の課にDおじさんがいたことからはじまります。Dおじさんは、私より一回り以上上の年齢(50代後半

                                                                    ありがとうディープラーニングおじさん - karaage. [からあげ]
                                                                  • 「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表

                                                                    「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。 英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。 英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。 これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを

                                                                      「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
                                                                    • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                      (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

                                                                        エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                      • Stable Diffusion から特定の概念を忘れさせる学習を行ってみる

                                                                        TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよ マイナス適用によって、概念を削除するだけでなく強調することもできたよ 一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。 論文とかどうでもいいから学習方法知りたい! という方は 実際に学習してみる へどうぞ! 今回作成したもの コード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。 本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の

                                                                          Stable Diffusion から特定の概念を忘れさせる学習を行ってみる
                                                                        • 「一般人おじさんでも初音ミクになって踊れる可能性と未来がある」の動画が凄い技術なんだけど男に戻る瞬間がサブリミナル

                                                                          バーチャル美少女おじさん珍味 @hanageshinnkenn 美少女になりたいおじさん。ダンスとアニメが好きです。noteには二次元美少女になる方法やAIについて書いてます。 最後のゴーヤ祭 / 思春期テロリスト https://t.co/egEMyRn6Yc

                                                                            「一般人おじさんでも初音ミクになって踊れる可能性と未来がある」の動画が凄い技術なんだけど男に戻る瞬間がサブリミナル
                                                                          • 「顔を右に」「口を開く」など画像の動かしたい部分をAIがいい感じに修正してくれるツール「DragGAN」のソースコード&デモが公開される

                                                                            AIを使って画像を生成する時、「ちょっとだけ修正を加えたい」と思うことは多いもの。そんな人たちの夢をかなえるツールが「DragGAN」です。DragGANは画像の中で動かしたいポイントを指示するだけでAIが自動で修正してくれるというもので、2023年5月に論文だけが提出されていましたが、2023年6月22日にソースコードが公開され、同時にデモも登場しました。 GitHub - XingangPan/DragGAN: Official Code for DragGAN (SIGGRAPH 2023) https://github.com/XingangPan/DragGAN Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold https://vcai.mpi-inf.mpg.

                                                                              「顔を右に」「口を開く」など画像の動かしたい部分をAIがいい感じに修正してくれるツール「DragGAN」のソースコード&デモが公開される
                                                                            • 大規模モデルを支える分散並列学習のしくみ Part1

                                                                              はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 自然言語処理分野における大規模深層学習の重要性は日に日に高まっていますが、GPT-3, GPT-4 などのモデルの学習には膨大な計算コストがかかり、容易に学習できなくなっています。実際、モデルサイズが近年急速に大きくなっていることにより、学習に必要な計算量(FLOPs)は以下のように年々膨大になっています。近年の大規模モデルでは、NVIDIA H100 80GB であっても 1 つの GPU では、モデルをのせることすらできません。 Compute Trends Across Three Eras of Machine Learning より またScaling Laws によると、大規模なモデルは小さいモデルと比較してより優れた性能を発揮するため、自動

                                                                                大規模モデルを支える分散並列学習のしくみ Part1
                                                                              • 20230614_「ChatGPTについて調べてくれ」と社長から特命を受けた人のためのChatGPT概論(40min版)

                                                                                https://forest.f2ff.jp/introduction/7866?project_id=20230601

                                                                                  20230614_「ChatGPTについて調べてくれ」と社長から特命を受けた人のためのChatGPT概論(40min版)
                                                                                • Wolfram氏によるChatGPTの仕組みと機能に関する解説について|IT navi

                                                                                  数式処理システムのMathematicaや質問応答システムのWolfram Alphaを開発したStephen Wolfram氏が「What Is ChatGPT Doing … and Why Does It Work?」(ChatGPTは何をしていて、なぜそれがうまく機能するのか?)と題するブログ記事を発表しました。 この記事は、とても分かりやすい言葉で、沢山例を挙げて詳しく説明していますので、ChatGPTの仕組みを理解したいと思っている人には必読の記事だと思います。 ブラウザの翻訳機能を利用して日本語で読むこともできますが、易しい言葉で書かれた文章であるにも関わらず、これを完全に理解するのは簡単なことではありません。 前半は大規模言語モデル、ニューラルネットワーク、Transformerなどの仕組みについて相当詳しく説明しており、後半はChatGPTに関するWolfram氏独自の解

                                                                                    Wolfram氏によるChatGPTの仕組みと機能に関する解説について|IT navi