[B! cv] sh19910711のブックマーク

画像から人体の3Dモデルを生成する技術 - Qiita

背景メタバースやAR等の進展で人体の3Dモデル化は需要大（Vtuber等のアバター,ゲームモーション作成、映像コンテンツの作成等）今回は画像や動画からどうやって人体を3D化するかという技術を紹介したいと思います。 3Dモデルの表現方法画像から3Dモデルを作成する上で重要なのは３Dをどのような形で表現をすればよりNNの学習に適しているかということです。 3DモデルをPoint Cloudのような点群として表現するのか、メッシュとして表現するのかなど同じ3Dにしても多数の表現方法があります。用途やNNの学習に適した表現形式が多数提案されており、今回はSMPLとNeRFという２つの表現方法に関してご紹介いたします。押さえておきたい要素技術1: SMPLモデル SMPLとは? パラメータ化された人体の3Dモデル SMPL: A Skinned Multi-Person Linear M

sh19910711 2024/05/18

"SMPL: 間接点,人の向いている方向,それぞれに対する回転角度𝜃と人の体格を決める10次元のパラメータ𝛽という人間が解釈しやすい82個のパラメータで操作可能 / ml-neuman: NeRF+人背景分離用のMaskRCNN+画像からのSMPL推定" 2023

リンク

ゼロショット物体検出の研究動向

sh19910711 2024/05/18

"Zero-Shot Detection: 学習時には存在しないクラスの物体検出 + 単語空間を使うことでデータの補間ができる / Ankan18: BBoxのついていないところを検出する予定のない未知クラスの単語ベクトルに割り当て" arXiv:1804.04340 2021

リンク

【論文まとめ】DINO: Emerging Properties in Self-Supervised Vision Transformers

本記事ではFacebook AI Researchの研究者らによって提案されたDINOという，画像モデルにおける自己教師あり学習の解説を行います． Caron, Mathilde, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. 2021. “Emerging Properties in Self-Supervised Vision Transf ormers.” arXiv [cs.CV]. http://arxiv.org/abs/2104.14294. (cf.) Facebook ブログ, GitHub, Yannic Kilcher氏の解説動画要点：画像モデル (e.g. ResNet, Vision transf ormers)における，ラベル無

sh19910711 2024/05/13

"「AugmentationとDatasetが帰納バイアスになっている」という仮説 / 写真を取るときは，自分が注目する物体を視野の中に入れる．道路の脇に草が少し生えているような画像はインターネット上に普通アップロードしない" 2021

リンク

【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos - Qiita

【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in VideosComputerVision 概要『天空の城』の名を冠する動画合成に関する論文を読んでみたので、紹介してみます。この論文で提案している手法は、以下の画像のように、空の領域を別途用意されたテンプレート画像と置き換えることで、あたかも天空の城が現実に出現したかのように合成できるというものです。公式実装のリポジトリ名がSkyARとなっているように、まさに「空のAR」というべき効果が得られています。本手法が面白いのは、このような合成を、ジャイロセンサーなどの情報を利用せずに、画像情報のみからリアルタイムで動画に対して適用できるという点にあります。公式のプロジェクトページに様々な動画が上がっているので、眺めてみると楽しいと思います。本手法では

sh19910711 2024/05/13

"あたかも天空の城が現実に出現したかのように合成 / 画像情報のみからリアルタイムで動画に対して適用できる / CoordConv: 画像中における相対的な位置情報も特徴量に埋め込む" 2020

リンク

MIRU2023 参加レポート - ZOZO TECH BLOG

こんにちは。ZOZO Researchの研究員の古澤・北岸・平川です。2023年7月25日（火）から7月28日（金）にかけて画像の認識・理解シンポジウムMIRU2023に参加しました。この記事では、MIRU2023でのZOZO Researchのメンバーの取り組みやMIRU2023の様子について報告します。目次目次 MIRU2023 企業展示全体の動向若手プログラムインタラクティブセッション [IS3-46] 着用者の体型を考慮したファッションコーディネート推薦 [IS3-87] ファッショントレンドの検出と予測：SNS投稿データのクラスタリングと時系列解析気になった研究発表 [OS3B-L2] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion [OS4A-L2] 数式ドリブン教師あり学習によるセマンテ

sh19910711 2024/05/13

"MIRU: 画像の認識・理解についてのシンポジウム / 昨年は敵対的生成ネットワークを使用する研究が多かった + 今年はStable Diffusionなどで注目を集めている拡散モデルを用いた研究へとシフト" MIRU2023:IS3-87 2023

リンク

Autoencoderを用いたOutfitからのスタイル抽出/style auto encoder

sh19910711 2024/05/13

"Autoencoderの仕組みを利用してスタイル混合比と基底スタイルを獲得する / 誤差関数はhinge loss + 復元時に用いる行列について、各行が独立となるように正則化をかける + 行列の各行は基底スタイルを表す" 2018

リンク

Google Meet仮想背景のAIモデルを参考に開発した高速高精度なバーコードスキャナ

こんにちは。前回のブログでGoogle Meetの仮想背景用のAIモデルをwasm化したTensorflow Lite(TFLite)で動かす方法についてご紹介しました。今回は、この技術の活用先の一つとして、軽量、高速なバーコードスキャナを作成してみたのでご紹介したいと思います。動作としてはこのような感じになります。様々の向きを向いている複数のバーコードを高速に読み取れています。軽量Semantic Segmentationモデル仮想背景で使われているAIモデルはSemantic Segmentationモデルと呼ばれます。このモデルは、写真などの画像のピクセル毎に何が写っているかを分類し、対象物が写っている領域を特定してくれます。例えば、下図のように、左の可愛い猫様の画像を入力すると真ん中のように猫様と背景の領域を特定した出力を出してくれます。これを人間に使って人間と背景の領域を

sh19910711 2024/05/11

"軽量Semantic Segmentationを用いてバーコードがありそうな領域を切り出す / シーケンシャルに行っていたエッジ検出処理の一部を、Tensorflow Lite(+XNNPACK)で最適化された行列演算で一気に計算" 2021

リンク

Tree Tensor Networkを用いた画像分類器 - Qiita

はじめにテンソルネットワークは、量子多体系などの高次元なデータを効率的に扱うための手法として利用される技術ですが、近年、テンソルネットワークを機械学習に応用する研究が様々行われています。今回は、文献[1]を参考に、Tree Tensor Network (TTN)を用いて、画像の分類を行うモデルをPyTorchで実装し、MNISTとFashion-MNISTに対して、その性能を確認してみます。概要今回用いるTree Tensor Network (TTN)は、その名の通り、木構造のテンソルネットワークです。今回取り上げるTTNによる分類器では、葉が画像の各ピクセルに相当し、この情報を集約していくような構造になります。この際、愚直に実装しようとすると、葉より上のノードのテンソルの次元数が非常に大きくなってしまうのですが、ここでCP分解と呼ばれる手法を用いて、これを小さなテンソルに

sh19910711 2024/05/09

"TTN; Tree Tensor Network: 葉が画像の各ピクセルに相当 + 愚直に実装しようとすると、葉より上のノードのテンソルの次元数が非常に大きく / CP分解: テンソルをベクトルの直積の和に分解 + 近似的にテンソルを表現" 2023

リンク

ディープラーニングは作画監督を見分けられるのか？　〜涼宮ハルヒの憂鬱[エンドレスエイト」より〜 - Qiita

ー　はじめに　ーもし、この記事を読む読者の方がアニメ好きならば、「涼宮ハルヒの憂鬱」の名を知らぬ人はいないでしょう。今回は後世に名を残した「エンドレスエイト」より、絵コンテ・演出家、作画監督をディープラーニングで認識することができるのかを検証していきたいと思う。 ☆「涼宮ハルヒの憂鬱」を知らない方へ涼宮ハルヒの憂鬱とは原作者：谷川　流氏、角川スニーカー文庫から刊行されているSF系学園ストーリー（筆者談、諸説あり） 2009年4月から放映されたアニメ2期「涼宮ハルヒの憂鬱」にて、世間を騒がす大事件が起きました。「エンドレスエイト」原作である「涼宮ハルヒの暴走」の名が指し示す通り、アニメ涼宮ハルヒの憂鬱が暴走を起こし、全く同じ内容を８週にかけて放映しました。今回はその８回分の同じ内容のアニメを活用し、ディープラーニングの能力を検証していきたいと思います。蛇足にはなりますが「涼宮ハ

sh19910711 2024/05/09

"エンドレスエイト: 1話〜7話の絵コンテ・演出家、作画監督は違う + 内容の構成はほぼ同じ / 1〜7話を判別するモデルを作って、8話目を認識させる / 一話丸ごと => 「同じシーンを書いたものであれば可能」という結論" 2021

リンク

第2回：画像でないデータを画像として処理する

AI 技術チームの石川です。今回は、我々が発表した論文で使ったアイディアの一つである、「画像でないデータを画像として扱う」ことで画像分析用の手法を活用するという考え方について紹介したいと思います。画像認識や画像処理のために開発された手法やツールを活用することで、画像でないデータの分析を簡単に、高精度に行うことができる場合があります。ビジネスにおいては、以下のような場面で活用できる可能性があります。製造業、商業、公共交通機関等での音声による異常検知時系列の金融データ分析画像データとCNN 画像認識はAI・機械学習の代表的なタスクのひとつであり、幅広く研究されています。ディープラーニングが注目されるきっかけの一つとなった画像認識コンペティションILSVRCはImageNetという大規模な写真データセットの分類精度を競うものでした。ディープラーニングによる画像認識において、優れた性能を達成

sh19910711 2024/05/05

"「画像でないデータを画像として扱う」ことで画像分析用の手法を活用する / 音声データ以外にも、コンピュータ上のファイルのバイナリ配列を2次元配列に変換し、CNNでマルウェアを検出するという研究" 2021

リンク

文字認識アルゴリズムのFOTSを実装したので，1から解説してみる（EASTも少し） - Qiita

はじめに例によって暇だったため，FOTS(Fast Oriented Text Spotting with a Unified Network)をPytorchで実装してみました．実装はこちら→https://github.com/jjjkkkjjj/pytorch.dlで，FOTS意外にも気まぐれでいろんなアルゴリズムを実装しています．今回の実装では，学ぶことも多かったので，アウトプットも含めてFOTSを1から解説してみたいと思います．また，FOTSはEAST(An Efficient and Accurate Scene Text Detector)から踏襲した部分も多いので，EASTの解説も含んでいると思います．ちなみに，以下が実装したFOTSの出力結果です．ところどころおかしいですが，いい感じですね〜．入力画像出力画像 FOTSとは FOTSとは，その名（Fast Orie

sh19910711 2024/05/05

"SynthText: なんてことない画像に，人工的にあらゆる単語をあらゆるフォントで付与した画像のデータセット / 一定区間毎の特徴をSequenceとしてRecurrent Layers（Bidirectional LSTM）で文字を予測" 2020

リンク

metric learning のファッション分野における活躍

この記事の目的は？ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か？ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。図：自撮り画像の例図：商品画像の例出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl

sh19910711 2024/05/05

"compatibility learning: デニムジャケットにはボーダーのTシャツが合う、というようなことを学習 + コーデの採点 / アイテム特徴量を reduce して得られる文脈ベクトルをスタイルとみなし + metric learning" arXiv:1707.05691 2020

リンク

Scenic: A JAX Library for Computer Vision Research and Beyond - stMind

github.com Scenicは、Transf ormerベースのモデルにフォーカスしたオープンソースのJAXライブラリ。最近、Transf ormerを適用した動画認識モデルの論文（ViViT, MTV, ObjectViViT）を読んでいる中で見かけていました。研究のコードであっても、構造化され、実験しやすいことが、色々なアイデアを素早く検証できるベースになることを実感していて、 Scenicが気になっていました。そこで、arxivに公開されているScenicの論文を読んでみたので、ここで内容をメモしておきます。 arxiv.org Abstract Scenicの目的は、新しいビジョンアーキテクチャやモデルの素早い実験、プロトタイピング、リサーチを促進すること。 Scenicは、マルチホスト、マルチデバイスの大規模学習のためのGPU/TPUサポートとともに、多様なビジョンタスク

sh19910711 2024/05/04

"構造化され、実験しやすいことが、色々なアイデアを素早く検証できるベースになる / Scenic: 抽象度を上げるよりもフォークやコピー + 複数のモデルやタスクに広く有用である場合のみ、library-levelに機能を加える"

リンク

自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介 - ほろ酔い開発日誌

はじめに今回は、自然言語界隈に発展をもたらし、デファクトスタンダードとなったTransf ormerのモデルを物体認識に取り入れた論文(End-to-End Object Detection with Transf ormers 2020/05/26 on arXiv)を紹介します。 [2005.12872] End-to-End Object Detection with Transf ormers (記事中の図は特に言及がなければ論文のもの) こちらの論文はFacebook AIから出ており、blog記事も公開されています。概要がコンパクトにまとまっており、読みやすいです。概要だけ知りたい方にはおすすめです。 ai.facebook.com また、DL輪読会にて発表されたスライドもあるので、技術的内容を一通りさらいたい方におすすめです。 [DL輪読会]End-to-End Object D

sh19910711 2024/05/02

"DETR: 自然言語領域でよく用いられるTransformerを画像認識の領域に持ち込んだ / 物体認識をbboxの集合を予測する問題として捉え直し、それを最適化するような学習方法を提案 / encoderに画像を入れ + bboxの予測" arXiv:2005.12872 2020

リンク

【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita

はじめに本記事は、2022年3月に修士課程を修了する私が学部4年から3年間で学んできた知識について経験的なイメージ（偏見）を携えて、修論とは別になんとなくまとめてみようとするものです。本記事は理論メインになります。実装のプログラミングは多少話題にしてますが、そちらをしっかり学びたい方にはそれほど役に立たないと思います。ご了承ください。一応、以下のような人をターゲットとして書いています。新たに学び始める人ざっくり分野の概要を知りたい人知識のない人向けに講演などする予定があり参考にしたい人とにかく何でもいいから読み物がほしい人現在、入門書籍や入門記事はたくさんありますが、持論・体験・最新の研究についても触れながら書くつもりなので、少しでも良いなと思っていただければと考えています。数学的な話も少し出ますが、中学・高校数学レベルがわかれば大丈夫です。誤字脱字・間違った知識の報

sh19910711 2024/05/02

"Convolution: 瞬時に理解できるように説明するのはサッカー知らない人にオフサイドを説明するぐらい難しい / Convolutionの層やAttentionをとにかく追加して接続してで論文が書けていた時代が落ち着きを見せてきており" 2022

リンク

OpenMMLabの始め方@SUMMER 2023 - Qiita

Rist Kaggle チームの藤本(@fam_taro)です。今回は Rist Kaggle合宿2023夏の時間を使って、最近の OpenMMLab の始め方をまとめてみました。本記事内ではその中の mmdetection を使って説明していきますが、他の OpenMMLab の使い方もカバーする内容となってます。また記事の後半では Kaggle のコードコンペなどに参加したいときの使い方も記載します。 1. OpenMMLabとは下図と紹介文は公式サイトより引用 OpenMMLab builds the most influential open-source computer vision algorithm system in the deep learning era. It aims to provide high-quality libraries to reduc

sh19910711 2024/05/02

"OpenMMLab: タスクごとのライブラリをまとめた OSS + 大体 Config でなんとかなる + 高い再現性 + Deploy(e.g. ONNX への変換) まで対応 + 慣れるまで大変 / 長期間での業務となると自作パイプラインだと負債が大きくなってしまう" 2023

リンク

ゼロからわかる3次元計測 3Dスキャナ，LiDARの原理と実践 - ぱたへね

ゼロからわかる3次元計測 3Dスキャナ，LiDARの原理と実践 www.ohmsha.co.jp カメラを使った計測に興味がある人に呼んで欲しい本。そもそも3次元計測とはなにかから説明があり、結構小難しい話がとても良くまとまっています。特にカメラの補正機能が何をやっていて測量時にどういう影響があるかは、仕事でやる人は目を通して欲しいなと思いました。 OpenCVを使ったキャリブレーションも、単にライブラリの使い方を説明するのではなく、原理や実際にやる上での注意点が書いてありとても良かったです。後半は、実際に3D計測をやってみようという内容になります。ここでも原理をさらっと説明した上で、実際にやっている様子やソースコードもあって分かりやすいです。まあ、実際仕事でやるならお金払って市販の3D Scannerを買うことになるので、どちらかというとホビーか勉強用の情報ですね。ただ、読んでい

sh19910711 2024/05/02

"カメラの補正機能が何をやっていて測量時にどういう影響があるか / OpenCVを使ったキャリブレーションも、単にライブラリの使い方を説明するのではなく、原理や実際にやる上での注意点が書いてありとても良かった" 2023

リンク

点群深層学習 Meta-study

Naoya ChibaGraduate School of Information Science, Tohoku University

sh19910711 2024/05/02

"三次元点群の難しさ: 順不同な入力 + 画像のようには畳み込みができない / 入力点群の順序が変わっても出力が変わらないことが望ましい / PointNet: Symmetric Functionによって順不同な入力を扱う + 点ごとに独立した変換" 2019

リンク

夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

夏のトップカンファレンス論文読み会（2017/09/18）での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/conditional-similarity-networks - 散布図: https://github.com/crcrpar/conditional_similarity_networks_pytorch

sh19910711 2024/05/01

"類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017

リンク

Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita

エンジニア＆リサーチインターンの佐藤(Twitter: TodayInsane)です。 ABEJA Advent Calendarの21日目を担当します。もうすぐクリスマスですね！"Merry&Happy"！！！軽い自己紹介今年の4月からフロントエンドのデザイン→Vue.js実装をメインの業務とし、半年間とあるプロダクトの開発・案件受注を長期インターンとしてお手伝いさせて頂いてました。本記事と直接の関係はありませんが、このプロダクトの開発者兼ぼくのメンターさんによる思いとテックと面白さが詰まったABEJA Tech Blogも是非ご一読ください。そして9月に初案件が無事成功した話を、インターン体験記兼続編として執筆中です。現在はエンジニア業務と同時並行で、10月から機械学習のリサーチインターンもしています。上述の人物認証を使ったプロダクトやABEJAのサービスであるInsight

sh19910711 2024/04/29

"Person Re-Identification: 画像または映像を解析し、写っている人物が既知(登録済みの人)か未知かを判定 / domain gap: 「学習データセットの人たちは推論時には多分1人も出てこない」問題" 2019

リンク

はてなブックマーク

タグ

関連タグで絞り込む (38)

cvに関するsh19910711のブックマーク (62)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス