並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 51件

新着順 人気順

chainerの検索結果1 - 40 件 / 51件

  • 機械学習と自動微分 (2023)

    「最適化法」第15回(ゲストトーク), 2023年1月20日, 同志社大学.

      機械学習と自動微分 (2023)
    • バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ

      機械学習エンジニアの吉田です。 夏ですね。7月はLayerXエンジニアブログを活発にしよう月間 です。 昨年バクラクOCRの機械学習モデルの検証から本番投入までの取り組みについて記事を書きました。 tech.layerx.co.jp その後、運用する中で新たな課題が生まれたり、負債を解消するために当初の開発環境を見直しアップデートしてきました。 今回は機械学習周辺の技術スタックに焦点を当ててその変遷について紹介したいと思います。 MLチームでは各サービスからのリクエストを処理するAPIやデータ基盤、社内のアノテーションツールなどの開発も行っており、これらは主にGo, TypeScriptで開発されていますが今回は対象外としています。 技術スタックの変遷 本番リリース時と現在の主な技術スタックの比較です。 リリース時 現在 言語 Python Python パッケージ管理 pip Poetr

        バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ
      • StreamDiffusionをローカルで遊ぶ|omiz

        StreamDiffusionってなに?めちゃくちゃ速い画像生成ができるやつです。 いくつか機能が用意されていて、text2img、img2img、画面キャプチャからの画像生成、vid2vidができます。 個人的にvid2vidが激ヤバで感動しました。 リアルタイムAIお絵描き(?)も高fpsでできちゃう・・・ 下のリンクからでも動画が見れるので見てない人は見て欲しい。すごい。 (https://x.com/IMG_5955/status/1731971307732918532?s=20) (https://x.com/cumulo_autumn/status/1732309219041571163?s=20) (https://x.com/cumulo_autumn/status/1728768642052182231?s=20) インストールするよはやく遊びたいのでインストールします。

          StreamDiffusionをローカルで遊ぶ|omiz
        • 大規模モデルを単一GPUで効率的に学習する方法|npaka

          以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。 ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ

            大規模モデルを単一GPUで効率的に学習する方法|npaka
          • PyTorchやTensorFlow互換のAI処理高速化プラットフォーム「MAX」プレビュー公開、Pythonを高速化した「Mojo」搭載

            Modular社がAI処理を高速化するプラットフォーム「MAX」をプレビュー公開。PyTorchやTensorFlow、ONNXなどのAIモデルと入れ替えるだけで処理が最大5倍高速になる。 Pythonの高速なスーパーセット「Mojo」言語を発表したことで話題となったModular社が、AI処理を高速化するプラットフォーム「MAX」(Modular Accelerated Xecution)のデベロッパーエディションをブレビュー公開しました。 MAX Developer Edition Preview has officially launched! It's a drop-in replacement for running and serving @PyTorch, @tensorflow and @onnxai models much faster and leverages the

              PyTorchやTensorFlow互換のAI処理高速化プラットフォーム「MAX」プレビュー公開、Pythonを高速化した「Mojo」搭載
            • TFRecordとWebDatasetを使った分散並列学習とパフォーマンス調査

              はじめに Turing株式会社の自動運転MLチームでエンジニアをしている越智 (@chizu_potato)と塩塚 (@shiboutyoshoku) です。 Turingが目指す自動運転は、大量のデータで学習された非常に賢い機械学習モデルを活用することです。そのために、走行パートナーの方たちと協力して創業時からこれまで大量の走行データを取得してきました。走行データは車両に取り付けられた複数カメラによる360度をカバーした動画と、そのときの速度やGPSなどの走行ログを含んでいます。データサイズは80TBを超え、時間換算で3500時間程度です。 これだけのデータサイズでモデルを学習するためには、1枚のGPUだけで頑張るには限界があり複数のGPU (multi-GPU) による分散並列学習が必要となってきます。しかし、ただ分散並列学習を行うだけではmulti-GPUに対し、データの入出力 (I

                TFRecordとWebDatasetを使った分散並列学習とパフォーマンス調査
              • LLaVAを使っておうちのパソコンでも画像からコード生成 - きしだのHatena

                ChatGPTが画像対応して、画像からいろいろなコードが生成できて楽しいことになっていましたが、同じようなことをおうちで動かせるLLaVAが出ていたので試してみました。 GPUはVRAM 12GBあれば十分、8GBはギリギリという感じ。 LLaVA-1.5 先週、LLaVAのバージョンアップ版、LLaVA-1.5が出てました。 🚀 LLaVA-1.5 is out! Achieving SoTA on 11 benchmarks, with simple mods to original LLaVA! Utilizes merely 1.2M public data, trains in ~1 day on a single 8-A100 node, and surpasses methods that use billion-scale data. 🔗https://t.co/y0k

                  LLaVAを使っておうちのパソコンでも画像からコード生成 - きしだのHatena
                • 3D Gaussian Splattingの使い方 (Windows環境構築)

                  NeRFとは異なる、新たなRadiance Fieldの技術「3D Gaussian Splatting for Real-Time Radiance Field Rendering」の使い方、環境構築手順をまとめました。 手順はGitHubのREADMEにもありますが、こうした環境構築に慣れてない自分は結構てこづったので、必要な手順を細かくまとめました。 サンプルだけ触ってみたい人は 記事の最後にその手順をまとめました。 データをDLして専用ビューワーで開くのみです。 環境構築や自前のデータを用意せず3D Gaussian Splattingがどんなものか触ってみたい人向け。 環境構築参考サイト 環境構築手順はこちらの方もまとめられているので、うまくいかない場合はこちらも合わせて参考にしてみてください。 ・The NeRF Guru氏 – YouTube ・Alex Carlier氏 –

                    3D Gaussian Splattingの使い方 (Windows環境構築)
                  • 自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita

                    PyTorch の社内勉強会の題材にしたいと思い立ち、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいましたが。 動作環境 Google Colaboratory の CPUランタイムにて動作を確認しました。 概略 おおまかな処理フローは次図の通りです。盤面情報を受け取った先攻方策と後攻方策は、○×を書き込む場所を返します。この先攻方策と後攻方策に AI を実装し自己対戦させます。 盤面情報は、空白マスをゼロ、先攻 ○ を+1、後攻 × を-1とした形状 (H,W)=(3,3) の二次元配列とします。 盤面座標は、場合により二次元座標と1次元に展開したフラット座標を使い分けます。 三目並べの

                      自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita
                    • GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable music generation LM

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable music generation LM
                      • GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch

                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                          GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch
                        • TensorFlow、機械学習の開発を加速するオープンソースツールが拡充〜Google I/O 2023から - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                          Image credit: Google 5月10日の Google I/O における大きな人工知能(AI)に関するニュースは、大規模言語モデル「PaLM 2」の発表だが、このイベントにおけるAIニュースはそれだけではない。 Google は、オープンソースの機械学習(ML)技術のアップデートと、成長中の TensorFlow エコシステムの機能強化を相次いで発表した。TensorFlow は、Google が主導するオープンソース技術の取り組みで、開発者がモデルを構築して訓練するのに役立つ ML ツールを提供している。 Google は、Google I/O で新技術「DTensor」を発表した。この技術は、MLト レーニングに新しい並列化技術をもたらし、モデルトレーニングとスケーリング効率の向上を支援するものだ。 また、TF Quantization API のプレビューリリースもあり

                            TensorFlow、機械学習の開発を加速するオープンソースツールが拡充〜Google I/O 2023から - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                          • GitHub - eduardoleao052/js-torch: A JavaScript library like PyTorch, built from scratch.

                            import { torch } from "js-pytorch"; const nn = torch.nn; class Transformer extends nn.Module { constructor(vocab_size, hidden_size, n_timesteps, n_heads, p) { super(); // Instantiate Transformer's Layers: this.embed = new nn.Embedding(vocab_size, hidden_size); this.pos_embed = new nn.PositionalEmbedding(n_timesteps, hidden_size); this.b1 = new nn.Block( hidden_size, hidden_size, n_heads, n_timeste

                              GitHub - eduardoleao052/js-torch: A JavaScript library like PyTorch, built from scratch.
                            • 今こそはじめるJAX/Flax入門 Part 1

                              1. はじめに 2012年から始まった深層学習の発展の過程で、さまざまな学習フレームワークが登場しました。中でもPyTorchとTensorflowは最も広く使われており、それぞれのフレームワークが支持されている背景には、柔軟性、拡張性、そして使いやすさがあります。 一方で、これらのフレームワークはその機能を拡張し続けてきた結果として、全体として非常に巨大で複雑なライブラリになっています。そのため、独自に機能拡張を行いたいユーザーにとっては扱いづらく、性能的にもオーバーヘッドを感じさせることがあります。 そこで新たに出てきたのが「JAX」とその関連ライブラリの組み合わせになります。2019年に登場して以降、特に海外の開発者に支持されてきました。近年注目されている大規模言語モデル(LLM)の分野においても、JAXによるモデルが公開されていることは珍しくなくなりつつあります。 PyTorch(

                                今こそはじめるJAX/Flax入門 Part 1
                              • Unity Sentis入門 - PyTorchからONNXを自作して使うまで

                                概要 Unityが発表したAIツール群。その中にあるSeintsは、Barracudaをリプレイスすることを目標に作られているもののようです。現在はまだβプログラムで、全員が利用できるわけではありませんが、運良く参加できたので早速試してみました。 が、今回の内容はほぼBarracudaでも同じような内容になります。ONNXモデルを利用したフローを自分が理解したかったのでちょっとやってみた、という内容の記事ですw 今回は利用方法というより、全体の構造を把握、理解することを目的としています。Barracudaでもそうでしたが、SentisでもONNX(Open Neural Network Exchange)を利用してAIを構築します。 そこでONNXを自作し、それをSentis上で扱うまでを解説しながら使い方や使うイメージを掴んでもらえればと思います。 PyTorchでモデルを作成する ON

                                  Unity Sentis入門 - PyTorchからONNXを自作して使うまで
                                • Poetry1.5.1からGPU版のPytorchのインストールが簡単になりました

                                  結論 GPU版PytorchのようなPyPIに存在しないパッケージにおいて、Poetry1.5.1からインストールがより簡単になりました🎉 例えば自分の環境では下記の2行でインストールできます。 poetry source add torch_cu118 --priority=explicit https://download.pytorch.org/whl/cu118 poetry add torch torchvision torchaudio --source torch_cu118

                                    Poetry1.5.1からGPU版のPytorchのインストールが簡単になりました
                                  • PytorchによるLLMの高速化

                                    アドベントカレンダー「ほぼ横浜の民」の11日目の記事です。 今年は LLM の高速化実装について書いています。私はLLMの専門家ではないですが前々から興味があったので少し勉強してみました。 この記事を読んでわかること LLMが文章を生成する仕組み torch.compile によって LLM はどのように高速化されるのか? Speculative Decoding とは? 背景 少し前に Accelerating Generative AI with Pytorch II: GPT, Fast という素晴らしいブログ記事を見かけました。この記事は Pytorch チームから出されたもので、素の Pytorch のみを用いて LLM の推論を 10 倍高速化できるというものでした。一体どのように 10 倍もの高速化を実現しているのか気になったので、個人的な勉強も兼ねてこの記事を書いています。

                                      PytorchによるLLMの高速化
                                    • GitHub - frodo821/BitNet-Transformers: 0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture

                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                        GitHub - frodo821/BitNet-Transformers: 0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture
                                      • Code LoRA from Scratch - a Lightning Studio by sebastian

                                        LoRA (Low-Rank Adaptation) is a popular technique to finetune LLMs more efficiently. This Studio explains how LoRA works by coding it from scratch, which is an excellent exercise for looking under the hood of an algorithm.

                                          Code LoRA from Scratch - a Lightning Studio by sebastian
                                        • GitHub - pytorch-labs/gpt-fast: Simple and efficient pytorch-native transformer text generation in <1000 LOC of python.

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - pytorch-labs/gpt-fast: Simple and efficient pytorch-native transformer text generation in <1000 LOC of python.
                                          • Accelerating Generative AI with PyTorch II: GPT, Fast

                                            This post is the second part of a multi-series blog focused on how to accelerate generative AI models with pure, native PyTorch. We are excited to share a breadth of newly released PyTorch performance features alongside practical examples to see how far we can push PyTorch native performance. In part one, we showed how to accelerate Segment Anything over 8x using only pure, native PyTorch. In this

                                              Accelerating Generative AI with PyTorch II: GPT, Fast
                                            • PyTorchコーディング時の実装負担を低減させるテンプレートコード - Qiita

                                              はじめに 機械学習コードに用いられるPyTorchコーディング時の実装負担低減を目的として、テンプレートコードを作成してみました。本記事では具体的な使用方法を記載します。(テンプレートコード部分の実装は文献1を参考にさせていただきました) ソースコード 下記リンクからアクセス可能です。 テンプレートコードはframeworkディレクトリに、ユーザー実装部分はusrディレクトリに、それぞれ格納されています。 使用方法 本テンプレートコードを使用することにより、自作のデータセットおよびモデル(+損失関数等)を用意するだけで、簡単にモデルの学習やテストができるようになります。ここでは、具体的な使用方法について説明します。 1. データセットの構築 初めに、データセットを読み込むためのクラスを作成します。データセットはユーザー定義であることから、データ形状等に制約はありません。一方で、後述するデー

                                                PyTorchコーディング時の実装負担を低減させるテンプレートコード - Qiita
                                              • サウンド系の深層学習に使うtorchaudio - deoxy’s diary

                                                この投稿はrioyokotalab Advent Calendar 2020 21日目の投稿です。 adventar.org サウンド系の機械学習 PyTorchを使ってなにかするとなると、なぜか多くの人は画像をどうにかしようとしがちな気がします。特にブログとかでやってみた的な記事だとその傾向が強いと思います。確かにインパクトはありますし...。 画像処理はやり尽くされている感はありますが、音声系って意外とやられていない要素が多いように思います。もし、PyTorchで音声に関する機械学習を行いたいのであれば、この記事が参考になればと思います。 サウンド系機械学習のスタンダードな実装 音声というのは波情報です。それをそのまま1次元CNNにかけるというのでもいいのですが、波情報のままだと、情報が冗長すぎます。なので、基本的にはスペクトログラム1と呼ばれる、二次元情報に変換し、それを画像処理ベー

                                                  サウンド系の深層学習に使うtorchaudio - deoxy’s diary
                                                • PyTorchのEmbeddingの挙動についてまとめてみた - DROBEプロダクト開発ブログ

                                                  はじめに CTOの都筑(@tsuzukit2)です この記事では PyTorch の Embedding の挙動について記載します Embedding とは何か 公式の仕様書はこちらになります Embedding - PyTorch 1.9.0 documentation 公式の説明は以下となっており、非常に的を得ていると思います A simple lookup table that stores embeddings of a fixed dictionary and size. 意訳すると、 固定長の辞書埋め込みを保存するシンプルなルックアップテーブル になるんじゃないかなと思います。Embedding は、何だか難しそうにも思えてしまうのですが、ここに記載されている通り非常にシンプルなテーブルでしかないという事です モジュールの解説としては以下のように記載があります This mod

                                                    PyTorchのEmbeddingの挙動についてまとめてみた - DROBEプロダクト開発ブログ
                                                  • Pythonの機械学習ライブラリ「PyTorch」に脆弱性 研究者が発見

                                                    人気ライブラリPyTorchに見つかったサプライチェーン攻撃の詳細 PyTorchは、MetaのAI(人工知能)リサーチグループによって開発されたライブラリで、GPUをサポートしたテンソル演算や深層学習トレーニング、Open Neural Network Exchange(ONNX)へのエクスポート機能、自動微分機能、自動ベクトル化などの特徴を備える。多くの深層学習ソフトウェアがPyTorchをベースに構築されており、さまざまな企業やプロジェクトによって使われている。 スタウィンスキー氏によると、PyTorchの「継続的インテグレーション/継続的デリバリー」(CI/CD)プロセス内の脆弱性と「GitHub」のデプロイシステム「セルフホステッドランナー」を悪用することで、PyTorchリポジトリに対する広範なアクセス権を獲得し、悪意あるコードのアップロードやリポジトリの秘密情報の窃取が可能に

                                                      Pythonの機械学習ライブラリ「PyTorch」に脆弱性 研究者が発見
                                                    • 【LLM for NewsRec】大規模言語モデル(BERT)を活用したニュース推薦のPyTorchによる実装と評価

                                                      1. はじめに 世は大インターネット時代。「ニュースは紙ではなく、スマホで。」が当たり前。日々生み出される膨大なニュースの中から個人の嗜好に基づいた記事を抽出するニュース推薦システムの需要は高まり、Microsoft NewsやYahoo News、Smart Newsなど数多くのオンラインニュースメディアが、その分野に多大なる労力を割いています。そして、近年用いられる手法の多くは機械学習技術が用いられています。 ニュース推薦における推薦アイテムは、いうまでもなく「ニュース記事」。そしてその大部分はテキスト情報から構成されます。機械学習 x テキスト処理となると、今最もホットなトピックといえば、やはり大規模言語モデルの応用です。 大規模言語モデルは、膨大なコーパスによる事前学習を通して深い言語理解を獲得した大規模なニューラルネットです。文書分類や翻訳、対話応答など、様々な自然言語処理タスク

                                                        【LLM for NewsRec】大規模言語モデル(BERT)を活用したニュース推薦のPyTorchによる実装と評価
                                                      • GitHub - facebookresearch/schedule_free: Schedule-Free Optimization in PyTorch

                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                          GitHub - facebookresearch/schedule_free: Schedule-Free Optimization in PyTorch
                                                        • GitHub - facebookresearch/xformers: Hackable and optimized Transformers building blocks, supporting a composable construction.

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            GitHub - facebookresearch/xformers: Hackable and optimized Transformers building blocks, supporting a composable construction.
                                                          • 【C++】学習済みPyTorchモデルのC++(TotchScript)移管 - Qiita

                                                            TotchScriptとは TorchScriptは、Pythonコードからモデルを段階的に移行するためのツールを提供し、スタンドアロンの C++ プログラムなど、Python から独立して実行できる TorchScript プログラムへ置き換えることができる。つまり、使い慣れたPythonツールを使用して PyTorch でモデルを作成し、推論用にC++へエクスポートすることができ、高速化が図れる。 単純モデルのエクスポート Pytorchで学習したモデルを元に、torch.jit.trace関数を用いてTorchScriptプログラムへ変換する。 ※ ジャストインタイム(JIT)コンパイラー・・・実行時にコードをコンパイルするコンパイラの一種で、実行時に必要な部分のコードを即座にコンパイルして実行する。プラットフォーム(Windows、macOS、LinuxなどのOSやハードウェア)に

                                                              【C++】学習済みPyTorchモデルのC++(TotchScript)移管 - Qiita
                                                            • PyTorchで画像を小さいパッチに切り出す方法

                                                              PyTorchで1枚の画像を複数の小さい画像(パッチ)に切り出す方法を紹介します。TensorFlowだとtf.image.extract_patchesにあたる処理です。 torch.Tensor.unfold torch.Tensor.unfoldという関数を使います。 unfold(dimension, size, step) → Tensor という形式で、順番にパッチを切り出す次元、パッチサイズ、パッチを切り出す間隔ですね。次元は縦と横で取ればいいので画像の4階テンソルなら2,3で取れば良いでしょう。 コード この画像を「cat.jpg」とします。 128px × 128pxのパッチで、64px間隔に取り出すものとします。 import torch import torchvision from PIL import Image import numpy as np # テンソル

                                                                PyTorchで画像を小さいパッチに切り出す方法
                                                              • Quanto: a pytorch quantization toolkit

                                                                Quantization is a technique to reduce the computational and memory costs of evaluating Deep Learning Models by representing their weights and activations with low-precision data types like 8-bit integer (int8) instead of the usual 32-bit floating point (float32). Reducing the number of bits means the resulting model requires less memory storage, which is crucial for deploying Large Language Models

                                                                  Quanto: a pytorch quantization toolkit
                                                                • Vertex AI と PyTorch を使用して、わずか 4 ステップでジェネレーティブ AI モデルをデプロイ | Google Cloud 公式ブログ

                                                                  Vertex AI と PyTorch を使用して、わずか 4 ステップでジェネレーティブ AI モデルをデプロイ ※この投稿は米国時間 2023 年 5 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。 基盤モデルは、膨大なラベルなしデータでトレーニングされ、テキスト、画像、音楽の生成といった下流のジェネレーティブ AI のタスクに使用されており、新しいプロダクトやサービスを生み出す可能性を探る企業にとって、ますますその利用が拡大しています。基盤モデルは、画像生成などのユースケースに使用できます。生成モデルである拡散モデルは、高画質の画像を生成できることから、ここ数年注目を集めています。Stable Diffusion は、テキストから画像への潜在的な拡散モデルであり、CompVis、Stability AI、LAION の研究者により開発されました。 S

                                                                    Vertex AI と PyTorch を使用して、わずか 4 ステップでジェネレーティブ AI モデルをデプロイ | Google Cloud 公式ブログ
                                                                  • Python: PyTorch で Apple Silicon GPU を使ってみる - CUBE SUGAR CONTAINER

                                                                    PyTorch v1.12 以降では、macOS において Apple Silicon あるいは AMD の GPU を使ったアクセラレーションが可能になっているらしい。 バックエンドの名称は Metal Performance Shaders (MPS) という。 意外と簡単に使えるようなので、今回は手元の Mac で試してみた。 使った環境は次のとおり。 GPU が 19 コアの Apple M2 Pro を積んだ Mac mini を使用している。 $ sw_vers ProductName: macOS ProductVersion: 14.4.1 BuildVersion: 23E224 $ sysctl machdep.cpu.brand_string machdep.cpu.brand_string: Apple M2 Pro $ pip list | grep -i tor

                                                                      Python: PyTorch で Apple Silicon GPU を使ってみる - CUBE SUGAR CONTAINER
                                                                    • ONNXモデルの変換エラーを解決: PyTorchのTransformerモデルの再実装方法

                                                                      Turing株式会社の自動運転・AIモデル開発チームの岩政(@colum2131)です。 Turingは2030年までに完全自動運転の達成を目指しており、自動運転AI開発から車両開発など、取り組むことは多岐に渡っています。 今回の話は、自動運転AI開発中に出た問題と、ひとまずの解決方法になります。より良い解決策があれば、教えてもらいたいです🙏 Transfomer-EncoderをONNXに変換したい ONNX(Open Neural Network eXchange)は、機械学習・深層学習モデルを表現するために構築されたオープンフォーマットです。 PyTorchやTensorFlow、scikit-learnなどのフレームワークで学習されたモデルをONNXに変換することでサーバーやエッジデバイスなど多様なハードウェアで運用が可能です。各ハードウェアごとに最適化されたフォーマットにも変換

                                                                        ONNXモデルの変換エラーを解決: PyTorchのTransformerモデルの再実装方法
                                                                      • GitHub - pytorch/torchtune: A Native-PyTorch Library for LLM Fine-tuning

                                                                        torchtune is a PyTorch-native library for easily authoring, fine-tuning and experimenting with LLMs. We're excited to announce our alpha release! torchtune provides: Native-PyTorch implementations of popular LLMs using composable and modular building blocks Easy-to-use and hackable training recipes for popular fine-tuning techniques (LoRA, QLoRA) - no trainers, no frameworks, just PyTorch! YAML co

                                                                          GitHub - pytorch/torchtune: A Native-PyTorch Library for LLM Fine-tuning
                                                                        • ローカルLLMの推論速度を高速化する5つの手法と比較評価

                                                                          目的 ローカルLLMの推論速度を改善する手法がいくつか報告されています。 今回は実際に報告されている5つの手法を実装して推論速度がどの程度改善するか確認します。 推論処理の高速化手法 1. torch.compile 計算グラフを構築 各演算をCPUやGPUのデバイスに特化した細かい命令に分解 与えられた入力に対して上記の命令を呼び出して演算を効率化 実装 モデルを読み込んだ直後にtorch.compileを追加 model = AutoModelForCausalLM.from_pretrained( model_name, device_map="cuda", trust_remote_code=True, torch_dtype=torch.bfloat16, load_in_8bit=False, load_in_4bit=False, use_cache=False, ).eva

                                                                            ローカルLLMの推論速度を高速化する5つの手法と比較評価
                                                                          • torchtune: Easily fine-tune LLMs using PyTorch

                                                                            by Team PyTorch We’re pleased to announce the alpha release of torchtune, a PyTorch-native library for easily fine-tuning large language models. Staying true to PyTorch’s design principles, torchtune provides composable and modular building blocks along with easy-to-extend training recipes to fine-tune popular LLMs on a variety of consumer-grade and professional GPUs. torchtune supports the full f

                                                                              torchtune: Easily fine-tune LLMs using PyTorch
                                                                            • PyTorchのFXグラフモードで量子化認識トレーニングを試す - TadaoYamaokaの開発日記

                                                                              ディープラーニングのモデルを推論する際、通常GPUが必要である。しかし、GPUがない場合でも、モデルのパラメータを浮動小数点から整数へと変換する手法を使うことで、CPUだけでも推論処理を高速に行うことが可能である。この手法を量子化と呼ぶ。 PyTorchの量子化 PyTorchには、量子化の方法がいくつか用意されている。 実装は「Eager Mode Quantization」と「FX Graph Mode Quantization」に分かれており、「FX Graph Mode Quantization」の方が新しい実装で、「Eager Mode Quantization」ではモデルのレイヤー融合を手動で行う必要があったところが自動化されている。 また、一般的に量子化の手法として、 ダイナミック量子化 トレーニング後の量子化 量子化認識トレーニング がある。 ダイナミック量子化は、キャリブ

                                                                                PyTorchのFXグラフモードで量子化認識トレーニングを試す - TadaoYamaokaの開発日記
                                                                              • 遅延評価と機械学習

                                                                                最近「なぜ関数プログラミングは重要か」という文書の存在を知りました。関数型プログラミング界隈ではかなり有名な文書のようだったので私も読んでみたのですが、話題の一つとして「遅延評価がプログラムのモジュール化を可能にし、生産性を高める」という話が事例とともに説明されており、とても勉強になりました。まだまだ理解しきれてはいませんが…… 本記事では、「なぜ関数プログラミングは重要か」に触発された私が、試しに機械学習のパイプライン構築に遅延評価を適用してみた事例を紹介します。読者のターゲットは普段Pythonで機械学習に触れているデータサイエンティストの方です。本記事を通して、遅延評価を使うと機械学習の学習処理ような「停止条件を満たすまでforループを回す」系の処理をうまくモジュール化できることを実感していただければ幸いです。一方で、例えばC#のLINQやJavaのStream APIなど (私はよ

                                                                                  遅延評価と機械学習
                                                                                • How I Re-implemented PyTorch for WebGPU

                                                                                  TL;DR I’ve been working on a WebGPU optimized inference and autograd library called webgpu-torch with an API that matches PyTorch. The goal is to run neural networks in the browser at speeds comparable to a Linux workstation. Many kernels have been implemented and its design is easily extensible. It’s available on NPM now and works in both the browser and Node.js! Neural Networks in the Browser Ni

                                                                                    How I Re-implemented PyTorch for WebGPU