[B! ディープラーニング][自然言語処理][コンピュータビジョン] misshikiのブックマーク

misshiki id:misshiki

ディープラーニングと自然言語処理とコンピュータビジョンに関するmisshikiのブックマーク (20)

https://twitter.com/tackson5/status/1788644168505426249
misshiki 2024/05/10
“ICLRの今の所の所感・LLMで〜〜はやっぱ多い・RLまあまあ多い・CLIP系マルチモーダル...”去年のトレンドを踏襲している印象。

コンピュータビジョン

自然言語処理

ディープラーニング
リンク
機械学習モデルの再学習でLoRAよりもより少ない計算コストと時間でより高いパフォーマンスを期待できる「DoRA」
大規模言語モデルや画像生成AIなどの機械学習モデルでは、ファインチューニングやLoRA(Low Rank Adaptation)といった手法によって、モデルの重みを微調整し、特定のタスクや目的に沿った出力を行うようにカスタマイズすることができます。香港科技大学の研究チームが、LoRAよりも計算コストと時間を削減できる新たな手法「DoRA(Weight-Decomposed Low-Rank Adaptation)」を発表しました。 [2402.09353] DoRA: Weight-Decomposed Low-Rank Adaptation https://arxiv.org/abs/2402.09353 Improving LoRA: Implementing Weight-Decomposed Low-Rank Adaptation (DoRA) from Scratch https
misshiki 2024/02/20
“LoRAよりも計算コストと時間を削減できる新たな手法「DoRA(Weight-Decomposed Low-Rank Adaptation)」”

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料
iCAST 2020 Invited Talk: Fairness in AI Service and Awareness for Computational Social Science
misshiki 2024/02/05
全68ページのスライド資料。

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
AWSの生成AIサービス「Bedrock」に新機能続々　基盤モデルのファインチューニングや、安全性保つ“ガードレール”など
AWSの生成AIサービス「Bedrock」に新機能続々　基盤モデルのファインチューニングや、安全性保つ“ガードレール”など米Amazon Web Servicesが、生成AIサービス「Amazon Bedrock」の新機能を複数発表した。Bedrock上で一部大規模言語モデルのファインチューニングが可能になった他、生成AIによる応答の安全性を高める新サービスも登場した。米Amazon Web Servicesは11月28日（現地時間）、生成AIサービス「Amazon Bedrock」の新機能を複数発表した。Bedrock上で一部大規模言語モデルのファインチューニングが可能になった他、生成AIによる応答の安全性を高める新サービスも登場した。 Llama 2などのファインチューニングが可能にまず、大規模言語モデル「Llama 2」「Cohere Command Light」「Amazon
misshiki 2023/11/30
“Amazon Bedrock」の新機能を複数発表した。Bedrock上で一部大規模言語モデルのファインチューニングが可能になった他、生成AIによる応答の安全性を高める新サービスも登場した。”

AWS

機械学習

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
大規模モデルを単一GPUで効率的に学習する方法｜npaka
以下の記事が面白かったので、かるくまとめました。・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。・スループット・学習時間・モデルのパフォーマンス「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ
misshiki 2023/10/03
自然言語処理

コンピュータビジョン

ディープラーニング
リンク
Methods and tools for efficient training on a single GPU
Methods and tools for efficient training on a single GPU This guide demonstrates practical techniques that you can use to increase the efficiency of your model’s training by optimizing memory utilization, speeding up the training, or both. If you’d like to understand how GPU is utilized during training, please refer to the Model training anatomy conceptual guide first. This guide focuses on practi
misshiki 2023/10/03
“単一の GPU で効率的にトレーニングするための方法とツール”

コンピュータビジョン

自然言語処理

ディープラーニング
リンク
ChatGPTはどのようなシチュエーションで使えるか　活用シーンと正しい答えが出やすくなる命令のやり方を解説
システムから言語モデルがどのように使えるか、その時どういうことに気をつける必要があるかを考える「『ChatGPTなどの言語モデルはどのようにシステムで使えるか』きしだなおき氏」。ここで、LINE Fukuoka株式会社のきしだなおき氏が登壇。まずは、ChatGPTの概要と、人間がどう使うかについて話します。きしだ氏の自己紹介きしだなおき氏：今日は「ChatGPT」などの言語モデルがどのようにシステムで使えるかという話を、概要レベルでやりたいと思います。まだ細かい知見は溜まっていない……。たぶん世界中でまだ知見が溜まっていないので、今は知見を溜めていくところだという話をしたいと思っています。まず自己紹介です。LINE Fukuokaで働いています。役職的にはDeveloper Relationsなので、別に仕事でLLMを触っているわけではないです。Twitter（現X）は@kis（とい
misshiki 2023/08/14
“LoRA（Low Rank Adaptation）という技術が提案されて。少ないメモリでFine Tuningができる”

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
AI for Beginners
Description
misshiki 2023/07/28
マイクロソフト提供の初心者向け無料講座「人工知能／ニューラルネットワーク／コンピュータビジョン／自然言語処理に関する12週間、24 レッスン」（英語）。構築して学ぶプロジェクト型。図がいい。

Microsoft

人工知能

コンピュータビジョン

自然言語処理

ディープラーニング
リンク
Zero-shot Learning（ゼロショット学習）とは？
用語「ゼロショット学習」について説明。訓練データに存在しない新しいクラスやタスクに対しても有用な予測／分類を行うための学習方法のことで、特にChatGPTの言語モデルなどでは、ファインチューニングすることなく、かつ例文もない状態で、さまざまなタスクを解決する能力を持つことを指す。連載目次用語解説人工知能／機械学習分野のゼロショット学習（Zero-shot Learning）とは、新しいクラス（分類問題の場合）やタスクを訓練データから事前に学習していなくても、推論時にその未知のクラスやタスクについての何らかの補助情報（説明テキストや属性情報、クラス間の類似性など）を訓練済みAIモデルに与えることで、柔軟に適切な分類や予測を行うための学習方法のことである。例えば動物を分類するタスクにおいて、事前に「犬」と「猫」（という2つの既知のクラス）の訓練データから学習したAIモデルに、未知の動物に
misshiki 2023/07/27
“訓練データに存在しない新しいクラスやタスクに対しても有用な予測／分類を行うための学習方法のことで、特に言語モデルでは、ファインチューニングすることなく、かつ例文もない状態で、さまざまなタスクを解決”

自然言語処理

機械学習

コンピュータビジョン

ディープラーニング
リンク
Daisuke Okanohara
岡野原　大輔 # Preferred Networks 共同創業者, 代表取締役最高研究責任者 / Co-Founder, Chief Excective Researcher Preferred Computational Chemistry 代表取締役社長 / Chief Executive Officer Preferred Elements 代表取締役社長 / Chief Executive Officer Preferred Robotics 取締役 / Director PFDeNA 取締役 / Director Preferred Infrastructure 取締役副社長 / Director 興味分野 # ディープラーニング、人工知能一般科学全般（物理、化学、生物学、医学など）ビジネス書籍 # 大規模言語モデルは新たな知能か岡野原大輔, 岩波書店, 2023 拡
misshiki 2023/05/29
“生成モデルは世界をどのように理解しているのか”など講演時のスライド資料がPDFでダウンロードできる。

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
［速報］Google、責任あるAIを実現するとして、画像にウォーターマークとメタデータの埋め込みを進めると発表。Google I/O 2023
Googleは5月10日（日本時間5月11日未明）、米カリフォルニア州マウンテンビューで開催中のイベント「Google I/O 2023」で、最新のAI基盤モデル「PaLM 2」を発表しました。 PaLM 2は規模の異なるGecko、Otter、Bison、Unicornの4種類のモデルが用意され、いちばん小さな規模のGeckoはモバイルデバイスでの利用も可能で、オフラインでも動作可能。
misshiki 2023/05/11
“PaLM 2は規模の異なるGecko、Otter、Bison、Unicornの4種類のモデルが用意され、いちばん小さな規模のGeckoはモバイルデバイスでの利用も可能で、オフラインでも動作可能。”

Google

人工知能

自然言語処理

コンピュータビジョン

ディープラーニング
リンク
Find Pre-trained Models | Kaggle
misshiki 2023/03/02
“何百ものトレーニング済みですぐにデプロイできる機械学習モデルを 1 か所で検索して発見します。”

Kaggle

ディープラーニング

コンピュータビジョン

自然言語処理
リンク
[Product Launch] Introducing Kaggle Models | Kaggle
misshiki 2023/03/02
“Kaggle モデルは、Kaggle の他のプラットフォームとの深い統合を通じて、事前トレーニング済みのモデルを発見して使用する場所です。”コード付きですぐに使えそう。手軽で良いと思う。

Kaggle

ディープラーニング

自然言語処理

コンピュータビジョン
リンク
Stable DiffusionでSeedを固定して同じ絵を生成できるのか問題を検証
Stable Diffusionでseedを固定して同じ絵を生成できるのか問題 Stable Diffusionでseed値を固定すると同じ絵を生成できるのかが（私の中で）話題です。きっかけは、shi3zさんとdrikinさんの動画のラストの1,2分。 Seedを固定すると同じ絵が出ると主張するdrikinさんと、そんなことはないんじゃないかといい、その場で実践して確かめるshi3zさん。自分も、GPUを多用するディープラーニングの演算だと、seed固定しても経験的に完全再現できないことを体感していたのと、当時調べたら「GPUでは完全再現は難しい」という情報が多かったので、seed値を固定しても、結果は再現できないものとずっと思っていました。でも、Stable Diffusionの実験して挙動みてると、同じpromptとseed値から同じ絵が再現できていそうなんですよね。その後も繰
misshiki 2022/09/05
“Stable Diffusion同じpromptとseed値で同じ絵の生成が可能。ラッパーのdiffusersのバージョンによっては再現できない”

ディープラーニング

コンピュータビジョン

自然言語処理
リンク
【AI最新論文まとめ】機械学習/ディープラーニングのおすすめ論文30選 | スキルアップAI Journal
はじめにスキルアップAIでは、下記の4講座を始めとして、現在、そしてこれから注目されるであろう最先端の機械学習/ディープラーニング技術に関する講座を開講しております。 GAN（敵対的生成ネットワーク）講座現場で使える XAI（Explainable AI）講座現場で使える自然言語処理実践講座ディープラーニング最新論文対策講座このような講座を開講していく中で、スキルアップAIの講師陣が注目している最先端技術をぜひ知りたいというお声を多くいただきました。そこで、自動機械学習（AutoML）を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となって、スキルアップAI講師陣にておすすめの論文を選びました。今回は、下記の4つに分けて合計30本の論文をご紹介いたします
misshiki 2022/04/13
ディープラーニング

自然言語処理

コンピュータビジョン
リンク
DALL·E 2
DALL·E 2 is an AI system that can create realistic images and art from a description in natural language.
misshiki 2022/04/07
“DALL・E 2は、自然言語での記述からリアルな画像やアートを作成できる新しいAIシステムです。”

人工知能

コンピュータビジョン

ディープラーニング

自然言語処理
リンク
【日本語モデル付き】2022年にマルチモーダル処理をする人にお勧めしたい事前学習済みモデル - Qiita
要点 OpenAI CLIPの日本語モデルを作り、公開しました。ご活用ください。 CLIPとは画像とテキストの埋め込みモデル（意味を表す固定長のベクトルに変換するモデル）であり、意味が近い画像とテキスト同士が近いベクトルになるという性質を持っています。4億枚の多様な画像とテキストのペアを用いて学習されており、高いゼロショット性能を備えています。応用例：テキストによる画像の検索、類似画像検索、画像 and/or テキストの分類、クラスタリング、画像やテキストの特徴量生成など日本語CLIPモデルはHugging Face Model Hubからダウンロードできます。応用方法を理解するためのサンプルコードとその解説を、4つの記事にして順次公開する予定です。進捗状況: 1/4。日本語CLIPモデルの使い方、サンプルコード（鋭意作成中）長くなるので使い方の解説は別の記事にしました。すぐに
misshiki 2022/04/06
“OpenAI CLIPの日本語モデルを作り、公開しました。ご活用ください。...日本語CLIPモデルの応用方法について解説する記事（サンプルコード、サンプルアプリ付き）を鋭意作成中”これは試してみたい。

OpenAI

試してみたい

コンピュータビジョン

自然言語処理

ディープラーニング
リンク
コスプレしたアインシュタイン？強力な生成モデルGLIDE
3つの要点 ✔️ 言語指示から多様かつ高解像度な画像が生成できるGLIDEを提案 ✔️ 言語指示に忠実した生成画像がDALL-Eを超える ✔️ 気軽に使えるミニモデルを公開 GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models written by Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen (Submitted on 20 Dec 2021 (v1), last revised 22 Dec 2021 (this version, v2)) Comments: Publish
misshiki 2022/01/31
“言語指示から多様かつ高解像度な画像が生成できるGLIDEを提案。言語指示に忠実した生成画像がDALL-Eを超える。気軽に使えるミニモデルを公開 GLIDE: Towards Photorealistic”

ディープラーニング

コンピュータビジョン

自然言語処理
リンク
fairseq/examples/data2vec at main · facebookresearch/fairseq
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
misshiki 2022/01/21
data2vecは、画像、音声、テキストに対して自己教師あり表現学習を行うフレームワーク。このアルゴリズムは、異なるモダリティに対して同じ学習機構を用いる。

PyTorch

機械学習

コンピュータビジョン

自然言語処理
リンク
小猫遊りょう（たかにゃし・りょう） on Twitter: "今年1月にOpenAIが発表した激ヤバなニューラルネット「DALL-E」の論文がとうとう公開された。開発者も予想していなかった多種多様な画像を作り出すことができる。高い抽象度で珍しい概念を構成する能力も確認。さらに、画像から画像へ… https://t.co/Tz0h4MbfSM"
今年1月にOpenAIが発表した激ヤバなニューラルネット「DALL-E」の論文がとうとう公開された。開発者も予想していなかった多種多様な画像を作り出すことができる。高い抽象度で珍しい概念を構成する能力も確認。さらに、画像から画像へ… https://t.co/Tz0h4MbfSM
misshiki 2021/02/25
論文“Zero-Shot Text-to-Image Generation”

ディープラーニング

コンピュータビジョン

Transformer

自然言語処理
リンク
1