タグ

cvに関するsh19910711のブックマーク (62)

  • 画像から人体の3Dモデルを生成する技術 - Qiita

    背景 メタバースやAR等の進展で人体の3Dモデル化は需要大 (Vtuber等のアバター,ゲームモーション作成、映像コンテンツの作成等) 今回は画像や動画からどうやって人体を3D化するかという技術を紹介したいと思います。 3Dモデルの表現方法 画像から3Dモデルを作成する上で重要なのは3Dをどのような形で表現をすればよりNNの学習に適しているかということです。 3DモデルをPoint Cloudのような点群として表現するのか、メッシュとして表現するのかなど同じ3Dにしても多数の表現方法があります。用途やNNの学習に適した表現形式 が多数提案されており、今回はSMPLとNeRFという2つの表現方法に関してご紹介いたします。 押さえておきたい要素技術1: SMPLモデル SMPLとは? パラメータ化された人体の3Dモデル SMPL: A Skinned Multi-Person Linear M

    画像から人体の3Dモデルを生成する技術 - Qiita
    sh19910711
    sh19910711 2024/05/18
    "SMPL: 間接点,人の向いている方向,それぞれに対する回転角度𝜃と人の体格を決める10次元のパラメータ𝛽という人間が解釈しやすい82個のパラメータで操作可能 / ml-neuman: NeRF+人背景分離用のMaskRCNN+画像からのSMPL推定" 2023
  • ゼロショット物体検出の研究動向

    sh19910711
    sh19910711 2024/05/18
    "Zero-Shot Detection: 学習時には存在しないクラスの物体検出 + 単語空間を使うことでデータの補間ができる / Ankan18: BBoxのついていないところを検出する予定のない未知クラスの単語ベクトルに割り当て" arXiv:1804.04340 2021
  • 【論文まとめ】DINO: Emerging Properties in Self-Supervised Vision Transformers

    記事ではFacebook AI Researchの研究者らによって提案されたDINOという,画像モデルにおける自己教師あり学習の解説を行います. Caron, Mathilde, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. 2021. “Emerging Properties in Self-Supervised Vision Transformers.” arXiv [cs.CV]. http://arxiv.org/abs/2104.14294. (cf.) Facebook ブログ, GitHub, Yannic Kilcher氏の解説動画 要点:画像モデル (e.g. ResNet, Vision transformers)における,ラベル無

    sh19910711
    sh19910711 2024/05/13
    "「AugmentationとDatasetが帰納バイアスになっている」という仮説 / 写真を取るときは,自分が注目する物体を視野の中に入れる.道路の脇に草が少し生えているような画像はインターネット上に普通アップロードしない" 2021
  • 【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos - Qiita

    【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in VideosComputerVision 概要 『天空の城』の名を冠する動画合成に関する論文を読んでみたので、紹介してみます。 この論文で提案している手法は、以下の画像のように、空の領域を別途用意されたテンプレート画像と置き換えることで、あたかも天空の城が現実に出現したかのように合成できるというものです。公式実装のリポジトリ名がSkyARとなっているように、まさに「空のAR」というべき効果が得られています。 手法が面白いのは、このような合成を、ジャイロセンサーなどの情報を利用せずに、画像情報のみからリアルタイムで動画に対して適用できるという点にあります。公式のプロジェクトページに様々な動画が上がっているので、眺めてみると楽しいと思います。 手法では

    【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos - Qiita
    sh19910711
    sh19910711 2024/05/13
    "あたかも天空の城が現実に出現したかのように合成 / 画像情報のみからリアルタイムで動画に対して適用できる / CoordConv: 画像中における相対的な位置情報も特徴量に埋め込む" 2020
  • MIRU2023 参加レポート - ZOZO TECH BLOG

    こんにちは。ZOZO Researchの研究員の古澤・北岸・平川です。2023年7月25日(火)から7月28日(金)にかけて画像の認識・理解シンポジウムMIRU2023に参加しました。この記事では、MIRU2023でのZOZO Researchのメンバーの取り組みやMIRU2023の様子について報告します。 目次 目次 MIRU2023 企業展示 全体の動向 若手プログラム インタラクティブセッション [IS3-46] 着用者の体型を考慮したファッションコーディネート推薦 [IS3-87] ファッショントレンドの検出と予測:SNS投稿データのクラスタリングと時系列解析 気になった研究発表 [OS3B-L2] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion [OS4A-L2] 数式ドリブン教師あり学習によるセマンテ

    MIRU2023 参加レポート - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/05/13
    "MIRU: 画像の認識・理解についてのシンポジウム / 昨年は敵対的生成ネットワークを使用する研究が多かった + 今年はStable Diffusionなどで注目を集めている拡散モデルを用いた研究へとシフト" MIRU2023:IS3-87 2023
  • Autoencoderを用いたOutfitからのスタイル抽出/style auto encoder

    sh19910711
    sh19910711 2024/05/13
    "Autoencoderの仕組みを利用してスタイル混合比と基底スタイルを獲得する / 誤差関数はhinge loss + 復元時に用いる行列について、各行が独立となるように正則化をかける + 行列の各行は基底スタイルを表す" 2018
  • Google Meet仮想背景のAIモデルを参考に開発した高速高精度なバーコードスキャナ

    こんにちは。 前回のブログでGoogle Meetの仮想背景用のAIモデルをwasm化したTensorflow Lite(TFLite)で動かす方法についてご紹介しました。今回は、この技術の活用先の一つとして、軽量、高速なバーコードスキャナを作成してみたのでご紹介したいと思います。 動作としてはこのような感じになります。様々の向きを向いている複数のバーコードを高速に読み取れています。 軽量Semantic Segmentationモデル 仮想背景で使われているAIモデルはSemantic Segmentationモデルと呼ばれます。このモデルは、写真などの画像のピクセル毎に何が写っているかを分類し、対象物が写っている領域を特定してくれます。例えば、下図のように、左の可愛い様の画像を入力すると真ん中のように様と背景の領域を特定した出力を出してくれます。これを人間に使って人間と背景の領域を

    Google Meet仮想背景のAIモデルを参考に開発した高速高精度なバーコードスキャナ
    sh19910711
    sh19910711 2024/05/11
    "軽量Semantic Segmentationを用いてバーコードがありそうな領域を切り出す / シーケンシャルに行っていたエッジ検出処理の一部を、Tensorflow Lite(+XNNPACK)で最適化された行列演算で一気に計算" 2021
  • Tree Tensor Networkを用いた画像分類器 - Qiita

    はじめに テンソルネットワークは、量子多体系などの高次元なデータを効率的に扱うための手法として利用される技術ですが、近年、テンソルネットワークを機械学習に応用する研究が様々行われています。 今回は、文献[1]を参考に、Tree Tensor Network (TTN)を用いて、画像の分類を行うモデルをPyTorchで実装し、MNISTとFashion-MNISTに対して、その性能を確認してみます。 概要 今回用いるTree Tensor Network (TTN)は、その名の通り、木構造のテンソルネットワークです。 今回取り上げるTTNによる分類器では、葉が画像の各ピクセルに相当し、この情報を集約していくような構造になります。 この際、愚直に実装しようとすると、葉より上のノードのテンソルの次元数が非常に大きくなってしまうのですが、ここでCP分解と呼ばれる手法を用いて、これを小さなテンソルに

    Tree Tensor Networkを用いた画像分類器 - Qiita
    sh19910711
    sh19910711 2024/05/09
    "TTN; Tree Tensor Network: 葉が画像の各ピクセルに相当 + 愚直に実装しようとすると、葉より上のノードのテンソルの次元数が非常に大きく / CP分解: テンソルをベクトルの直積の和に分解 + 近似的にテンソルを表現" 2023
  • ディープラーニングは作画監督を見分けられるのか? 〜涼宮ハルヒの憂鬱[エンドレスエイト」より〜 - Qiita

    ー はじめに ー もし、この記事を読む読者の方がアニメ好きならば、「涼宮ハルヒの憂」の名を知らぬ人はいないでしょう。 今回は後世に名を残した「エンドレスエイト」より、絵コンテ・演出家、作画監督をディープラーニングで認識することができるのかを検証していきたいと思う。 ☆「涼宮ハルヒの憂」を知らない方へ 涼宮ハルヒの憂とは原作者:谷川 流氏、角川スニーカー文庫から刊行されているSF系学園ストーリー(筆者談、諸説あり) 2009年4月から放映されたアニメ2期「涼宮ハルヒの憂」にて、世間を騒がす大事件が起きました。 「エンドレスエイト」 原作である「涼宮ハルヒの暴走」の名が指し示す通り、アニメ涼宮ハルヒの憂が暴走を起こし、全く同じ内容を8週にかけて放映しました。 今回はその8回分の同じ内容のアニメを活用し、ディープラーニングの能力を検証していきたいと思います。 蛇足にはなりますが「涼宮ハ

    ディープラーニングは作画監督を見分けられるのか? 〜涼宮ハルヒの憂鬱[エンドレスエイト」より〜 - Qiita
    sh19910711
    sh19910711 2024/05/09
    "エンドレスエイト: 1話〜7話の絵コンテ・演出家、作画監督は違う + 内容の構成はほぼ同じ / 1〜7話を判別するモデルを作って、8話目を認識させる / 一話丸ごと => 「同じシーンを書いたものであれば可能」という結論" 2021
  • 第2回:画像でないデータを画像として処理する

    AI技術チームの石川です。今回は、我々が発表した論文で使ったアイディアの一つである、「画像でないデータを画像として扱う」ことで画像分析用の手法を活用するという考え方について紹介したいと思います。画像認識や画像処理のために開発された手法やツールを活用することで、画像でないデータの分析を簡単に、高精度に行うことができる場合があります。ビジネスにおいては、以下のような場面で活用できる可能性があります。 製造業、商業、公共交通機関等での音声による異常検知 時系列の金融データ分析 画像データとCNN 画像認識はAI機械学習の代表的なタスクのひとつであり、幅広く研究されています。ディープラーニングが注目されるきっかけの一つとなった画像認識コンペティションILSVRCはImageNetという大規模な写真データセットの分類精度を競うものでした。 ディープラーニングによる画像認識において、優れた性能を達成

    第2回:画像でないデータを画像として処理する
    sh19910711
    sh19910711 2024/05/05
    "「画像でないデータを画像として扱う」ことで画像分析用の手法を活用する / 音声データ以外にも、コンピュータ上のファイルのバイナリ配列を2次元配列に変換し、CNNでマルウェアを検出するという研究" 2021
  • 文字認識アルゴリズムのFOTSを実装したので,1から解説してみる(EASTも少し) - Qiita

    はじめに 例によって暇だったため,FOTS(Fast Oriented Text Spotting with a Unified Network)をPytorchで実装してみました.実装はこちら→https://github.com/jjjkkkjjj/pytorch.dlで,FOTS意外にも気まぐれでいろんなアルゴリズムを実装しています.今回の実装では,学ぶことも多かったので,アウトプットも含めてFOTSを1から解説してみたいと思います.また,FOTSはEAST(An Efficient and Accurate Scene Text Detector)から踏襲した部分も多いので,EASTの解説も含んでいると思います. ちなみに,以下が実装したFOTSの出力結果です.ところどころおかしいですが,いい感じですね〜. 入力画像 出力画像 FOTSとは FOTSとは,その名(Fast Orie

    文字認識アルゴリズムのFOTSを実装したので,1から解説してみる(EASTも少し) - Qiita
    sh19910711
    sh19910711 2024/05/05
    "SynthText: なんてことない画像に,人工的にあらゆる単語をあらゆるフォントで付与した画像のデータセット / 一定区間毎の特徴をSequenceとしてRecurrent Layers(Bidirectional LSTM)で文字を予測" 2020
  • metric learning のファッション分野における活躍

    この記事の目的は? ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か? ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索 するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。 図:自撮り画像の例 図:商品画像の例 出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl

    metric learning のファッション分野における活躍
    sh19910711
    sh19910711 2024/05/05
    "compatibility learning: デニムジャケットにはボーダーのTシャツが合う、というようなことを学習 + コーデの採点 / アイテム特徴量を reduce して得られる文脈ベクトルをスタイルとみなし + metric learning" arXiv:1707.05691 2020
  • Scenic: A JAX Library for Computer Vision Research and Beyond - stMind

    github.com Scenicは、TransformerベースのモデルにフォーカスしたオープンソースのJAXライブラリ。 最近、Transformerを適用した動画認識モデルの論文(ViViT, MTV, ObjectViViT)を読んでいる中で見かけていました。 研究のコードであっても、構造化され、実験しやすいことが、色々なアイデアを素早く検証できるベースになることを実感していて、 Scenicが気になっていました。 そこで、arxivに公開されているScenicの論文を読んでみたので、ここで内容をメモしておきます。 arxiv.org Abstract Scenicの目的は、新しいビジョンアーキテクチャやモデルの素早い実験、プロトタイピング、リサーチを促進すること。 Scenicは、マルチホスト、マルチデバイスの大規模学習のためのGPU/TPUサポートとともに、多様なビジョンタスク

    Scenic: A JAX Library for Computer Vision Research and Beyond - stMind
    sh19910711
    sh19910711 2024/05/04
    "構造化され、実験しやすいことが、色々なアイデアを素早く検証できるベースになる / Scenic: 抽象度を上げるよりもフォークやコピー + 複数のモデルやタスクに広く有用である場合のみ、library-levelに機能を加える"
  • 自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介 - ほろ酔い開発日誌

    はじめに 今回は、自然言語界隈に発展をもたらし、デファクトスタンダードとなったTransformerのモデルを物体認識に取り入れた論文(End-to-End Object Detection with Transformers 2020/05/26 on arXiv)を紹介します。 [2005.12872] End-to-End Object Detection with Transformers (記事中の図は特に言及がなければ論文のもの) こちらの論文はFacebook AIから出ており、blog記事も公開されています。概要がコンパクトにまとまっており、読みやすいです。概要だけ知りたい方にはおすすめです。 ai.facebook.com また、DL輪読会にて発表されたスライドもあるので、技術的内容を一通りさらいたい方におすすめです。 [DL輪読会]End-to-End Object D

    自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介 - ほろ酔い開発日誌
    sh19910711
    sh19910711 2024/05/02
    "DETR: 自然言語領域でよく用いられるTransformerを画像認識の領域に持ち込んだ / 物体認識をbboxの集合を予測する問題として捉え直し、それを最適化するような学習方法を提案 / encoderに画像を入れ + bboxの予測" arXiv:2005.12872 2020
  • 【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita

    はじめに 記事は、2022年3月に修士課程を修了する私が学部4年から3年間で学んできた知識について経験的なイメージ(偏見)を携えて、修論とは別になんとなくまとめてみようとするものです。 記事は理論メインになります。 実装のプログラミングは多少話題にしてますが、そちらをしっかり学びたい方にはそれほど役に立たないと思います。ご了承ください。 一応、以下のような人をターゲットとして書いています。 新たに学び始める人 ざっくり分野の概要を知りたい人 知識のない人向けに講演などする予定があり参考にしたい人 とにかく何でもいいから読み物がほしい人 現在、入門書籍や入門記事はたくさんありますが、持論・体験・最新の研究についても触れながら書くつもりなので、少しでも良いなと思っていただければと考えています。 数学的な話も少し出ますが、中学・高校数学レベルがわかれば大丈夫です。 誤字脱字・間違った知識の報

    【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita
    sh19910711
    sh19910711 2024/05/02
    "Convolution: 瞬時に理解できるように説明するのはサッカー知らない人にオフサイドを説明するぐらい難しい / Convolutionの層やAttentionをとにかく追加して接続してで論文が書けていた時代が落ち着きを見せてきており" 2022
  • OpenMMLabの始め方@SUMMER 2023 - Qiita

    Rist Kaggle チームの藤(@fam_taro)です。 今回は Rist Kaggle合宿2023夏の時間を使って、最近の OpenMMLab の始め方をまとめてみました。記事内ではその中の mmdetection を使って説明していきますが、他の OpenMMLab の使い方もカバーする内容となってます。 また記事の後半では Kaggle のコードコンペなどに参加したいときの使い方も記載します。 1. OpenMMLabとは 下図と紹介文は 公式サイト より引用 OpenMMLab builds the most influential open-source computer vision algorithm system in the deep learning era. It aims to provide high-quality libraries to reduc

    OpenMMLabの始め方@SUMMER 2023 - Qiita
    sh19910711
    sh19910711 2024/05/02
    "OpenMMLab: タスクごとのライブラリをまとめた OSS + 大体 Config でなんとかなる + 高い再現性 + Deploy(e.g. ONNX への変換) まで対応 + 慣れるまで大変 / 長期間での業務となると自作パイプラインだと負債が大きくなってしまう" 2023
  • ゼロからわかる3次元計測 3Dスキャナ,LiDARの原理と実践 - ぱたへね

    ゼロからわかる3次元計測 3Dスキャナ,LiDARの原理と実践 www.ohmsha.co.jp カメラを使った計測に興味がある人に呼んで欲しい。 そもそも3次元計測とはなにかから説明があり、結構小難しい話がとても良くまとまっています。 特にカメラの補正機能が何をやっていて測量時にどういう影響があるかは、仕事でやる人は目を通して欲しいなと思いました。 OpenCVを使ったキャリブレーションも、単にライブラリの使い方を説明するのではなく、原理や実際にやる上での注意点が書いてありとても良かったです。 後半は、実際に3D計測をやってみようという内容になります。 ここでも原理をさらっと説明した上で、実際にやっている様子やソースコードもあって分かりやすいです。まあ、実際仕事でやるならお金払って市販の3D Scannerを買うことになるので、どちらかというとホビーか勉強用の情報ですね。ただ、読んでい

    ゼロからわかる3次元計測 3Dスキャナ,LiDARの原理と実践 - ぱたへね
    sh19910711
    sh19910711 2024/05/02
    "カメラの補正機能が何をやっていて測量時にどういう影響があるか / OpenCVを使ったキャリブレーションも、単にライブラリの使い方を説明するのではなく、原理や実際にやる上での注意点が書いてありとても良かった" 2023
  • 点群深層学習 Meta-study

    Naoya ChibaGraduate School of Information Science, Tohoku University

    点群深層学習 Meta-study
    sh19910711
    sh19910711 2024/05/02
    "三次元点群の難しさ: 順不同な入力 + 画像のようには畳み込みができない / 入力点群の順序が変わっても出力が変わらないことが望ましい / PointNet: Symmetric Functionによって順不同な入力を扱う + 点ごとに独立した変換" 2019
  • 夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

    夏のトップカンファレンス論文読み会(2017/09/18)での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/conditional-similarity-networks - 散布図: https://github.com/crcrpar/conditional_similarity_networks_pytorch

    夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17
    sh19910711
    sh19910711 2024/05/01
    "類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017
  • Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita

    エンジニア&リサーチインターンの佐藤(Twitter: TodayInsane)です。 ABEJA Advent Calendarの21日目を担当します。 もうすぐクリスマスですね!"Merry&Happy"!!! 軽い自己紹介 今年の4月からフロントエンドのデザイン→Vue.js実装をメインの業務とし、半年間とあるプロダクトの開発・案件受注を長期インターンとしてお手伝いさせて頂いてました。記事と直接の関係はありませんが、このプロダクトの開発者兼ぼくのメンターさんによる思いとテックと面白さが詰まったABEJA Tech Blogも是非ご一読ください。そして9月に初案件が無事成功した話を、インターン体験記兼続編として執筆中です。 現在はエンジニア業務と同時並行で、10月から機械学習のリサーチインターンもしています。上述の人物認証を使ったプロダクトやABEJAのサービスであるInsight

    Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "Person Re-Identification: 画像または映像を解析し、写っている人物が既知(登録済みの人)か未知かを判定 / domain gap: 「学習データセットの人たちは推論時には多分1人も出てこない」問題" 2019