[B! ディープラーニング][自然言語処理] misshikiのブックマーク

misshiki id:misshiki

ディープラーニングと自然言語処理に関するmisshikiのブックマーク (79)

https://twitter.com/tackson5/status/1788644168505426249
misshiki 2024/05/10
“ICLRの今の所の所感・LLMで〜〜はやっぱ多い・RLまあまあ多い・CLIP系マルチモーダル...”去年のトレンドを踏襲している印象。

コンピュータビジョン

自然言語処理

ディープラーニング
リンク
https://twitter.com/tackson5/status/1788138621096051079
misshiki 2024/05/09
“LLMでいろんなactivation使われてるけど、ぶっちゃけReLU使うのとそんなに大差ないし、ReLU使うとactivationがスパースになって計算コスト的にいいよ”

ディープラーニング

自然言語処理
リンク
1つの大きなLLM（大規模言語モデル）を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代昨今、ローカルGPUで駆動できるようなLLM（大規模言語モデル）もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が！」とか言われるようになってまいりました。パラメータ規模で言えば70億～130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。大きなモデルをGPU寄せ集めしつつ遊びたい！しかしながら、コンシュマー向けのGPUにおいては、7B
misshiki 2024/05/09
“「device_map=”auto”」という設定...実はこれこそが「1つのLLMを複数GPUに跨って実行させる設定」なんですよね。”

ディープラーニング

自然言語処理
リンク
MLX で Llama 3 を試す｜npaka
「MLX」で「Llama 3」を試したので、まとめました。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 推論の実行「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。推論の実行手順は、次のとおりです。 (1) Pythonの仮想環境の準備。今回は、「Python 3.10」の仮想環境を準備しました。 (2) パッケージのインストールと実行。今回は「mlx-community/Meta-Llama-3-8B-Instruct-4bit」のモデルを利用します。 pip install mlx-lm mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit -
misshiki 2024/04/22
“「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。”

Apple

自然言語処理

ディープラーニング
リンク
継続事前学習による金融ドメイン特化LLMの構築の検証 - Preferred Networks Research & Development
この記事は、金融チームエンジニアの今城(@imos)と金融チームリサーチャーの平野(@_mhirano)による寄稿です。概要本稿では、ドメインに特化したLLMの構築の一環として、金融ドメイン特化のLLMの構築の検証を行いました。継続事前学習によるドメイン知識の獲得を模索し、特定のドメイン向けに専用のパラメータ数が多い高性能なLLMを提供を可能にすることを目指します。実験では、nekomata-14bとPFNで構築した金融に特化したデータセットを用いて、継続事前学習を実施しました。継続事前学習の結果として、金融ベンチマーク性能が向上することが確認できました。出力の差としては、Instruction Tuningを施していないため、大きな差は見られないものの、一定の差が見られるケースもありました。継続事前学習後のモデルは、https://huggingface.co/pfnet/n
misshiki 2024/04/18
“ドメイン適合のための、継続事前学習を、日本語LLMに対して金融ドメインで実施しました。その結果、金融分野における、性能の向上を確認することができました。”

自然言語処理

ディープラーニング
リンク
torchtune: Easily fine-tune LLMs using PyTorch
by Team PyTorch We’re pleased to announce the alpha release of torchtune, a PyTorch-native library for easily fine-tuning large language models. Staying true to PyTorch’s design principles, torchtune provides composable and modular building blocks along with easy-to-extend training recipes to fine-tune popular LLMs on a variety of consumer-grade and professional GPUs. torchtune supports the full f
misshiki 2024/04/17
“大規模言語モデルを簡単にファインチューニングするための PyTorch ネイティブライブラリである torchtune のアルファ版リリースを発表” fine-tuneの民主化：専門知識がなくても簡単に使えるらしい。

PyTorch

自然言語処理

ディープラーニング
リンク
3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning
ThanksSpecial thanks to those below for supporting the original video behind this post, and to current patrons for funding ongoing projects. If you find these lessons valuable, consider joining. .chanceA ZookAaron BinnsAda CohenAdam CedroneAdam Dřínekaeroeng15Alan SteinAlbin EgasseAlex Alex HackmanAlexandru IrimieaAlexis OlsonAli YahyaAljoscha SchulzeAlon AmitAlvin KhaledAman KarunakaranAndrea Di
misshiki 2024/04/16
Transformaerの心、Attentionの可視化

Transformer

ディープラーニング

自然言語処理
リンク
https://www.uber.com/en-DE/blog/scaling-ai-ml-infrastructure-at-uber/
misshiki 2024/04/08
“Uber における AI/ML インフラストラクチャの拡張”

MLOps

ディープラーニング

自然言語処理
リンク
クラスメソッドデータアナリティクス通信(機械学習編) – 2024年4月号 | DevelopersIO
2024年3月分のAWSおよびGoogle Cloudの機械学習関連サービスのアップデート情報をお届けします。データアナリティクス事業本部インテグレーション部機械学習チームの鈴木です。クラスメソッドデータアナリティクス通信(機械学習編) の2024年4月号です。2024年3月分のアップデート情報をお届けできればと思います。はじめに AWSでは、Amazon SageMaker Canvasのホームページ刷新やテーブルデータに対する価格変更があり、さらに使いやすくなりました。Amazon BedrockではClaude 3 SonnetモデルおよびClaude 3 Haikuモデルが利用可能になったことも印象的でした。 Google Cloudでは、特にBigQueryでGeminiを利用した処理への対応が着々と進んでいました。それでは各々のアップデートを振り返って行ければと思
misshiki 2024/04/05
“AWSでは、Amazon SageMaker Canvasのホームページ刷新やテーブルデータに対する価格変更があり、さらに使いやすくなりました。Amazon BedrockではClaude 3 SonnetモデルおよびClaude 3 Haikuモデルが利用可能になったことも印象的。 ”

AWS

Gemini

Google

機械学習

ディープラーニング

自然言語処理
リンク
Introducing improvements to the fine-tuning API and expanding our custom models program
BlogIntroducing improvements to the fine-tuning API and expanding our custom models program We’re adding new features to help developers have more control over fine-tuning and announcing new ways to build custom models with OpenAI. There are a variety of techniques that developers can use to increase model performance in an effort to reduce latency, improve accuracy, and reduce costs. Whether it’s
misshiki 2024/04/05
“開発者が微調整をより細かく制御できるようにするための新機能を追加し、OpenAI でカスタムモデルを構築する新しい方法を発表します。”

OpenAI

自然言語処理

ディープラーニング
リンク
10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ｜Kan Hatakeyama
はじめに最近は大規模言語モデルのファインチューニングにハマっています｡ 10bクラスの言語モデルが､どのようなメカニズムを通してユーザーの質問に回答できるようになるかについて､調べています｡最近の検討で生じた仮説は､「10bクラスのモデルは､実は質問文を殆ど理解できていない」というものです｡本記事ではどのようなデータを学習したときに､llm-jp-evalという評価セットに含まれるJCommonsenseQAというタスクを解けるようになるか､果たして､10bクラスのモデルは何を「理解」している/いないのか､そして､指示を理解できるようになるための必要な訓練量について､調べて行きたいと思います｡コードはこちら ※ これは正確な学術的検証ではありませんので､ご了承ください｡きちっとやってくれる方や､良い参考文献をご存知の方がいたら､教えていただけると､大変助かります｡今回のタスクJCo
misshiki 2024/04/02
“10bクラスの言語モデルが､どのようなメカニズムを通してユーザーの質問に回答できるようになるかについて､調べています｡”

自然言語処理

ディープラーニング
リンク
新たに「Llama 2 70B」と「Stable Diffusion XL」が追加されたAIベンチマークテスト「MLPerf Inference v4.0」の結果が発表される
ニューラルネットワークのパフォーマンス評価を実施する業界コンソーシアムのMLCommonsは、さまざまなシナリオでハードウェアのAI処理性能を測定できるベンチマークテスト「MLPerf Inference」を設計しています。最新の「MLPerf Inference v4.0」では、パフォーマンス指標として新たにMetaの大規模言語モデル「Llama 2 70B」と画像生成AIの「Stable Diffusion XL」が追加されました。 New MLPerf Inference Benchmark Results Highlight The Rapid Growth of Generative AI Models - MLCommons https://mlcommons.org/2024/03/mlperf-inference-v4/ Nvidia Tops Llama 2, Stabl
misshiki 2024/03/29
“最新の「MLPerf Inference v4.0」では、パフォーマンス指標として新たにMetaの大規模言語モデル「Llama 2 70B」と画像生成AIの「Stable Diffusion XL」が追加されました。”

ディープラーニング

自然言語処理

機械学習
リンク
BitNetから始める量子化入門
はじめに Bit Net、最近話題になっていますね。そもそも量子化って何？という方もいると思うので、この記事は DeepLearning の量子化から入り、その上で Bit Net の触りについて見ていこうと思います。色々とわかってないことがあり、誤読してそうなところはそう書いてるのでご了承ください。図を作るのは面倒だったので、様々な偉大な先人様方の図やスライドを引用させていただきます。量子化 DeepLearning における量子化 DeepLearning の学習・推論は基本 float32 で行います。これを int8 や Nbit に離散化することを量子化といいます。計算に使う値は、モデルの重み、アクティベーション（ReLUとか通した後）、重みの勾配等があります。学習時については一旦置いておいて、この記事では推論における量子化について焦点をあてます。推論時に量子化の対象となる
misshiki 2024/03/04
“DeepLearning の量子化から入り、その上で BitNet の触りについて見ていこうと思います。”

ディープラーニング

自然言語処理

量子コンピュータ
リンク
機械学習モデルの再学習でLoRAよりもより少ない計算コストと時間でより高いパフォーマンスを期待できる「DoRA」
大規模言語モデルや画像生成AIなどの機械学習モデルでは、ファインチューニングやLoRA(Low Rank Adaptation)といった手法によって、モデルの重みを微調整し、特定のタスクや目的に沿った出力を行うようにカスタマイズすることができます。香港科技大学の研究チームが、LoRAよりも計算コストと時間を削減できる新たな手法「DoRA(Weight-Decomposed Low-Rank Adaptation)」を発表しました。 [2402.09353] DoRA: Weight-Decomposed Low-Rank Adaptation https://arxiv.org/abs/2402.09353 Improving LoRA: Implementing Weight-Decomposed Low-Rank Adaptation (DoRA) from Scratch https
misshiki 2024/02/20
“LoRAよりも計算コストと時間を削減できる新たな手法「DoRA(Weight-Decomposed Low-Rank Adaptation)」”

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料
iCAST 2020 Invited Talk: Fairness in AI Service and Awareness for Computational Social Science
misshiki 2024/02/05
全68ページのスライド資料。

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
Code LoRA from Scratch - a Lightning Studio by sebastian
LoRA (Low-Rank Adaptation) is a popular technique to finetune LLMs more efficiently. This Studio explains how LoRA works by coding it from scratch, which is an excellent exercise for looking under the hood of an algorithm.
misshiki 2024/01/24
“LoRA をゼロから – PyTorch で LLM の低ランク適応を実装する”

PyTorch

自然言語処理

ディープラーニング
リンク
GPUの基礎 - 五島正裕国立情報学研究所アーキテクチャ科学研究系教授
講演概要ツール・環境現在 (GP: General Purpose) GPUは、特にその高い演算性能から、AI分野における最も有力な実行プラットフォームとなっている。その高い演算性能は、AI分野で特徴的に現れるテンソル計算に強く適応した結果得られるものである。GPUが利用するテンソル計算の性質には、データ並列性・規則性の高さと計算精度に対する要求の低さ、演算強度の高さなどがある。本講演では、GPUの基礎として、GPUそれらの性質をどのように利用しているかを、CPUとの比較という観点から概説する。講演映像
misshiki 2023/12/28
“GPUの基礎として、GPUそれらの性質をどのように利用しているかを、CPUとの比較という観点から概説する。” 15分30秒の講義動画と全18ページのスライド資料です。

人工知能

自然言語処理

ディープラーニング
リンク
大規模言語モデルを自作しよう！(Transformers+DeepSpeed+torch.compile+flash_attn2）
本記事は、LLM Advent Calendar 2023 13日目の記事です。はじめに 🤗 Transf ormersは、自然言語処理、マルチモーダル、音声処理、コンピュータビジョン分野の事前学習済モデルを簡単にダウンロードしトレーニングすることが可能なpythonライブラリです。このライブラリを使用し、大規模言語モデル（LLM）の事前学習済モデルをローカルPC上にダウンロードし、それを使用した言語生成や、要約・翻訳・質問応答などの個別のタスクへのファインチューニング、チャットAIへの組み込みなどが盛んに行われています。 LLMの事前学習方法に関する情報としては、GPT-NeoXやMegatron-LM、TinyLlama、lit-llamaなど、他のpythonライブラリを使用したものが増えてきています。一方で、Transf ormersライブラリを使用したLLMの事前学習に関する情報
misshiki 2023/12/15
“japanese-mistral-300m-recipeを使用し、LLMの事前学習とファインチューニングの方法について説明”

自然言語処理

ディープラーニング
リンク
自社のデータで生成AIを強化すべし：ファインチューニングしてビジネスに活用させたい基盤モデル（その２） | NTTデータ先端技術株式会社
Microsoft、Google、MetaなどのBig Techが生成AIの開発をリードし、競争を激化させている現在、国家レベルでも本腰を入れて政策的に取り組もうという動きが加速しています。たとえば、英国では、2023年度春季予算案において、財務大臣が大規模言語モデルを含む基盤モデルにおける英国の主権能力を向上させるための新たな政府・産業タスクフォースを設立すると発表し、また、スナク首相が11月1日～2日にAIの安全性やリスク管理をテーマにした世界初のサミット "AI Safety Summit" を世界28カ国とEUの政府高官やAI企業の代表らを招集して主催するなど、AI推進とAI規制は英国政府の積極的な政策分野となっています。英国の政府機関の一つであるCMA（Competition & Markets Authority：競争・市場庁）は、2023年9月18日に、"AI Founda
misshiki 2023/12/07
2023.12.06の記事。基盤モデルとファインチューニングについての記事の後編。

自然言語処理

ディープラーニング
リンク
自社のデータで生成AIを強化すべし：ファインチューニングしてビジネスに活用させたい基盤モデル（その１） | NTTデータ先端技術株式会社
最近、クラウドサービスプロバイダ各社が言語系の基盤モデルとそのファインチューニング機能を提供し始めました。企業が生成AIをビジネスに本格的に活用させたいと思うならば、自社がもつデータセットで基盤モデルをファインチューニングする必要があるからです。 AIは、他の技術が成長する上で不可欠な基盤的な技術であり、ビジネスや社会の進化を後押ししています。最近、世間を賑わせているAIと言えば、生成AIでしょう。その中でもここ数ヶ月、メディアで数多く取り上げられて一躍注目を浴び、ビジネス現場を賑わせ続けているのが、OpenAIが開発したChatGPTです。ChatGPTは、GPT-3.5 Turboという大規模言語モデルを用いたAIチャットサービスです。（ただし、ChatGPTを大規模言語モデルと呼ぶ場合もあります。）GPT-3.5 Turboは、GPT-3.5という基盤モデルを人間のような自然な会話が
misshiki 2023/12/07
2023.08.02の記事“基盤モデルとファインチューニング”

自然言語処理

ディープラーニング
リンク
1 2 3 4 次のページ