Advances in computer vision and machine learning techniques have led to significant development in 2D and 3D human pose estimation from RGB cameras, LiDAR, and radars. However, human pose estimation from images is adversely affected by occlusion and lighting, which are common in many scenarios of interest. Radar and LiDAR technologies, on the other hand, need specialized hardware that is expensive
本記事は、画像生成AI Advent Calendar 2022 15日目を埋める記事です。 はじめに 画像生成AIは、学習した画像をコラージュした画像を出力しているのではないか、という議論があります。多くのモデルは勝手に収集した画像で学習(訓練)されているため、そのようなコラ画像が生成されていたら大問題です。 上の図を見てください。この図は、今月投稿された論文 [1] Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [Gowthami Somepalli+, arXiv 2022] の図です。上段がStable Diffusionの生成画像、下段が訓練データのサブセット(LAION Aesthetics v2 6+)中で一番似た画像です。生成画像の一部またはほぼ全部が
はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。 あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。 もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。 特徴としては、 前の対話内容に続く質問への回答が可能。 間違いを認めることもできる。 正しくない前提に対する異議を唱えることもできる。 不適切なリクエストには応じない。
(最新SSD IOはPCIe x4でした。ご指摘ありがとうございます。) はじめに どの処理で律速しているか調べる 各処理の速度改善方法 データ読み込み速度の改善 データ前処理速度の改善 GPU処理速度の改善 コンピューティングについての他記事 はじめに Kaggle Advent Calendar 2022 8日目です。 突然ですが、あなたはDNN学習時にどの処理で学習速度が律速しているか把握してますか? DNN学習には図に示すように大きく3つの要素があります: (SSDからの)データ読み込み (CPUによる)データ前処理 (GPUによる)DNN計算 学習時のデータの流れとしては SSDからデータが読み込まれ、CPUに送られる(SATA or PCIe) CPUにてaugmentationや正規化などの前処理が行われ、GPUにデータが送られる(PCIe x16) GPUにてDNNの計算・
RT2: Vision-Language-Action Models RT-2 model picking up object given the prompt "pick up the extinct animal." Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Xi Chen Krzysztof Choromanski Tianli Ding Danny Driess Avinava Dubey Chelsea Finn Pete Florence Chuyuan Fu Montse Gonzalez Arenas Keerthana Gopalakrishnan Kehang Han Karol Hausman Alex Herzog Jasmine Hsu Brian Ichter Alex Irpan Ni
はじめに こんにちは。mendyです。 この記事は、基盤モデル×Roboticsのカレンダーの14日目の記事になります。 この記事について この記事では、Foundation Model for Robotの動向とその課題というテーマでいくつか論文を紹介しながら、ロボットにおける基盤モデルとは一体何なのかについてゆるく書かせていただきます。基盤モデルというけど、何に使えるの?という方がイメージをつけるのに参考になれば幸いです。 いわゆるロボットに加えて、意思決定におけるFoundation Modelの内容も含んでいます。 聴講で参加したNeurIPS2022にも、Foundation Model for Decision Makingというworkshopがあり、基盤モデルxロボットは1つのトレンドになっていると思います。特に、SayCanのような、Large Language Mode
12月10日の2022ソフトウェアテストアドベントカレンダーです。 Launchable社でエンジニアとして働いているcvuskと申します。機械学習界隈では機械学習を実用化するためのシステム開発の本を書いてたります。もし良かったら読んでみてください。 『機械学習システムデザインパターン』 『機械学習システム構築実践ガイド』 本ブログでは機械学習を用いてテスト実行を効率化する手法として、Predictive Test Selectionについて説明します。テスト実行時間やコストで課題を抱えているエンジニアに役に立つと幸いです。 昨今の開発におけるテスト事情 2002年に『テスト駆動開発』が世に出て、ソフトウェア開発でテストを書くことが常識になって早20年が経っています。その間にクラウドの登場やDevOpsの普及により、テストをCI/CDパイプラインで自動実行し、コードとプロダクト品質を維持す
著者のAlberto Romero氏はスペイン在住のAI技術批評家で、同氏の鋭い洞察に満ちた記事のいくつかはAINOWでも紹介して来ました。同氏が2022年6月末にMediumに投稿した記事『BLOOMはここ10年で最も重要なAIモデルだ』では、大規模言語モデルBLOOMの開発経緯とその革新性が解説されています。 2022年7月12日に正式リリースされた言語モデルBLOOM(BigScience Language Open-science Open-access Multilingualの略称)は、アーキテクチャから見ればGPT-3と同じTransformerベースであり、パラメータ数は1750億のGPT-3より少し多い1760億である月並みなモデルです。 BLOOMの革新性を明らかにするために、まずRomero氏はGTP-3のような現代を代表する大規模言語モデルに共通する特徴をまとめます
米グーグルから、注目に値する“すごい”ロボット技術が登場した。 同社が得意とするロボット向け機械学習技術の領域での成果だが、これまで漸進的な進化が続いてきた強化学習や模倣学習といった範疇の技術ではない。それら旧来的な枠組みにとどまるものではなく、家庭やオフィスで使える汎用的なサービスロボット実現に向け、大きな前進となる技術である。細かいミクロな要素技術というよりも、こうした汎用的ロボットを実現するためのマクロなソフトウエアアーキテクチャの面で、今後の革新への萌芽となる成果を今回、出した(図1)。ロボット技術者であれば、決して無視できない成果である。 開発したのは、グーグルのロボット研究部門、および「Everyday Robots」という組織だ。Everyday Robotsは米Alphabet社(グーグルの親会社)傘下の基礎研究組織X Development社で発足したプロジェクトで、グー
Rules of Machine Learning: Stay organized with collections Save and categorize content based on your preferences. Best Practices for ML Engineering Martin Zinkevich This document is intended to help those with a basic knowledge of machine learning get the benefit of Google's best practices in machine learning. It presents a style for machine learning, similar to the Google C++ Style Guide and othe
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く