タグ

*algorithmとcvに関するsh19910711のブックマーク (62)

  • 論文翻訳: Deep Clustering for Unsupervised Learning of Visual Features - MOXBOX #DeepCluster #CNN

    \( \def\vector#1{\boldsymbol{#1}} \) \( \newcommand{\argmax}{\mathop{\rm argmax}\limits} \) Mathilde Caron, Piotr Bojanowski, Armand Joulin, and Matthijs Douze Facebook AI Research Abstract 概要: クラスタリングはコンピュータ・ビジョンで広く適用され研究されている教師なし学習方法の一種である。しかし大規模なデータセット上での視覚的特徴量の end-to-end 学習にクラスタリングを適用させる研究は殆ど行われていない。研究では、ニューラルネットワークのパラメータと、その結果として得られた特徴量のクラスタ割り当てを組み合わせて学習するクラスタリング手法である DeepCluster を提示する。Deep

    論文翻訳: Deep Clustering for Unsupervised Learning of Visual Features - MOXBOX #DeepCluster #CNN
    sh19910711
    sh19910711 2024/05/29
    "DeepCluster: k-means を使用して特徴量を反復的にグループ化 + そのクラスタ割り当てを次の学習の教師として使用しネットワークの重みを更新 / このタイプの交互の手順は自明解 (trivial solution) になりがち" 2018
  • GANを使わず画像を綺麗にしたい話(SRFlow) - Qiita

    はじめに ABEJA Advent Calendar 2021の8日目の記事です。 この記事では素晴らしい技術のはずなのになかなか日の目を浴びないFlowと呼ばれる技術を使った超解像について書こうと思います。 これを読んだ暁には「そうか、だから日の目を浴びないのか」となっていると思います。 そしてなぜこの人はこんなマニアックな記事を書いているんだろうと思うことでしょう。 超解像の概要 超解像とはざっくりいうと小さい画像を大きくする技術のことを指します。画素数の少ない低解像度な小さい画像を、画素数の多い高解像度の大きい画像にするということは、何かしらの方法で画素を補間してあげる必要があります。 非常にわかりやすいこちらの記事にもあるように、超解像とは不良設定問題です。 画像丸パクで大変恐縮ですが、1x3pixelの画像を2倍拡大して2x6pixelにする場合、以下のように様々なパターンが考え

    GANを使わず画像を綺麗にしたい話(SRFlow) - Qiita
    sh19910711
    sh19910711 2024/05/29
    "画像生成タスクといえばVAEかGANとなり、Flowなんて言葉は出てくることすらない / Normalizing Flow: 入力から、未知の値𝑦(超解像でいうところの新しい画素)を確率密度関数として表現する確率モデル" 2021
  • Unet, VAE+Unet, Dncnnを用いて、ガウスノイズ画像を復元してみた - Qiita

    はじめに ピンボケ画像の復元をしたいと思い、いくつか検証を行ったので記事にしました。 ピンボケ画像は、一般的にはガウシアンフィルタ(ぼかしフィルタ)に近似できるとのことで、当初はフーリエ変換を用いた方法(ウィーナフィルタ)を検討していました。しかし、撮影環境が変わったりピンボケの拡がり方が多様な場合は、汎化性能的に深層学習の方が優位性があるかなと思い、深層学習のモデルを用いた検証を行いました。 調べてみると、Dncnnなどノイズ除去目的のモデルがあったため、dncnn含め以前作成したUnetとVAE+Unetを用いました。 加えて、モデルは復元させる綺麗な画像自体を学習するよりもノイズを学習しやすい傾向があるとのことで、(stable diffusionも考え方は似ていますよね。こちらもノイズを正規分布として仮定しているため、考え方はほぼ同じな気がします。)Unetの出力をノイズを学習させ

    Unet, VAE+Unet, Dncnnを用いて、ガウスノイズ画像を復元してみた - Qiita
    sh19910711
    sh19910711 2024/05/29
    "ピンボケ画像の復元をしたい / DnCNN: 最後の層の出力をノイズと仮定し、入力とノイズの差分を最終的なモデルの出力とします / 出力と綺麗な画像を損失関数に与えることで、出力を綺麗な画像に寄せる" 2023
  • Resnet-50の精度を高める方法について(Bag of Tricks論文解説) - Qiita

    0.参考にした論文 Bag of Tricks for Image Classification with Convolutional Neural Networks 画像分類において、深層学習を用いているのですが、なかなか局所最適に陥ったり なんか精度が上がる手法って何があるんだろうと思い、 chat-GPT様に「なんかいい論文はないのか」と聞いたところ なんか良さそうな論文があった。 さまざまな手法が載っており、自分の持っているモデルに活用できそうなtickがたくさんあった。 0.1 簡潔にこの論文でやっていること BaseはRes-net50を扱っています 大変有名な論文なので、一応載せます。 冒頭では、大まかに「trick」と言っているのですが、さまざまな試行錯誤の組み合わせを総称してtrickと呼んでいます。 Res-netにはさまざまな派生系がありますが、 初学者(自分)にとっ

    Resnet-50の精度を高める方法について(Bag of Tricks論文解説) - Qiita
    sh19910711
    sh19910711 2024/05/29
    "Label Smoothingの有効性: 真のラベルを真のラベルと他のラベルの混合物に置き換えることで、予測される確率に少量の不確実性を追加 + オーバーフィッティングを防ぎ、モデルが予測に自信を持つ" 2023
  • Revisiting L1 Loss in Super-Resolution: A Probabilistic View and Beyond を読んで - CADDi Tech Blog

    はじめに こんにちは。2022年に誕生したAI Labというチームで、主に図面解析をしている中村遵介です。 趣味料理と画像を4倍に拡大することなので、今日は最近読んだ「Revisiting $l_1$ Loss in Super-Resolution: A Probabilistic View and Beyond[1]」という、画像の拡大で利用される損失関数に関する論文を紹介したいと思います。 趣味以外の理由として、CADDiでは図面画像の解析を行なっておりノイズ除去や画像拡大などの分野に注目しているという点もあります。 畳み込みニューラルネットに関する知識は必要ですが、画像の拡大に関する知識は必要としないように書いたつもりです。 論文の概要 いったん細かい話を置いておいて、論文の概要をざっくりご説明します。 この論文が取り組んだ課題は以下の点になるかと思います。 入力された画像を拡大

    Revisiting L1 Loss in Super-Resolution: A Probabilistic View and Beyond を読んで - CADDi Tech Blog
    sh19910711
    sh19910711 2024/05/29
    "SISR: 1枚の画像を入力とし、対応する1枚の拡大された画像を出力するタスク / 縮小すると x になる画像、すなわち求めたい綺麗な高画質画像 y は複数存在 + 正解の手法が存在せず(不可能決定問題)" 2022
  • 3Dモデルから自動的に生成した画像とアノテーションのデータセットで学習するセマンティックセグメンテーション - Qiita

    はじめに セマンティックセグメンテーションを行う時に普段はアノテーションを作成するのは大変な作業でしょう。もしそれが自動的に作れるのならどれくらい楽になるでしょうね。 私は「自動的に生成された画像データセットで学習して物に適用する」ということはよくやっています。普通の分類モデルでも教師データを準備することは大変なことだから、自動生成のデータが代わりに使えたら楽ですね。 そしてその生成データはセマンティックセグメンテーションにも使えるようにすることもできます。自動的に生成したデータなので、アノテーションも当然同時に作成することができます。しかもこれは手作業より正確で完璧なアノテーションになるでしょう。 「学習データがないので自分で生成する」という話はよくあることで新しいことではないのですが、これをセマンティックセグメンテーションに使う例はあまり聞いたことないの意外でした。だから私は自分で試

    3Dモデルから自動的に生成した画像とアノテーションのデータセットで学習するセマンティックセグメンテーション - Qiita
    sh19910711
    sh19910711 2024/05/27
    "自動的に生成したデータなので、アノテーションも当然同時に作成することができ + 手作業より正確で完璧 / 海星ヒトデを入れるのと入れない同じ画像のペアで学習すると海星ヒトデの特徴を把握しやすい"
  • GRUとAutoencoderを用いた,動画の再構成手法の検証と実装 - Qiita

    概要 皆様,いかがお過ごしでしょうか. コロナウイルス感染症の拡大に伴い,自宅でお仕事や研究をされている方も多いのではないでしょうか. かくいう私も,ここ数か月はずっと自宅でPCとにらめっこの毎日です.さすがに疲れましたね笑 さて,今回は,生成モデルを活用した再構成タスクに着目してみたいと思います. 特に,「動画」の再構成にトライします. (当記事でご理解いただけるのは,動画の異常検知に拡張可能な,encoder-decoderベースの時系列モデルをかませた再構成手法の実験結果と考察であり,数式などの理論的背景までは追いません.) 巷でよく,「異常検知」分野などに応用されているのは,「画像」の再構成ですね. 画像をencoder-decoderモデルに入力して再構成し,入出力間の差分をとることで異常度を計算する手法です. 画像の再構成に活用できる生成モデルとして,VAEは特に有名ですし,最

    GRUとAutoencoderを用いた,動画の再構成手法の検証と実装 - Qiita
    sh19910711
    sh19910711 2024/05/26
    "画像の再構成に活用できる生成モデルとして,VAEは特に有名ですし,最近ではGANを活用した異常検知手法(AnoGAN,EfficientGANなど)なんかも登場 / GRUと,encoder-decoderモデルを組み合わせて,動画再構成モデルを実装" 2020
  • 新たなdata augmentation手法mixupを試してみた - Qiita

    ここで$\lambda \in [0, 1]$は、ベータ分布$Be(\alpha, \alpha)$からのサンプリングにより取得し、$\alpha$はハイパーパラメータとなります。特徴的なのは、データ$X_1, X_2$だけではなく、ラベル$y_1, y_2$も混合してしまう点です。 この定式化の解釈の参考記事: http://www.inference.vc/mixup-data-dependent-data-augmentation/ 実装 ジェネレータとして実装します。 https://github.com/yu4u/mixup-generator import numpy as np class MixupGenerator(): def __init__(self, X_train, y_train, batch_size=32, alpha=0.2, shuffle=True,

    新たなdata augmentation手法mixupを試してみた - Qiita
    sh19910711
    sh19910711 2024/05/26
    "mixup: 2つの訓練サンプルのペアを混合して新たな訓練サンプルを作成 + 特徴的なのはデータ𝑋1,𝑋2だけではなく、ラベル𝑦1,𝑦2も混合してしまう点 / Random Erasingのほうが画像ドメインでは効果がありそうな印象" 2017
  • VAEによる画像検索システム - Qiita

    ※データセットの配布元: GitHubfashion-mnist/zalandoresearch」。The MIT License (MIT) Copyright © [2017] Zalando SE, https://tech.zalando.com ※出典: Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747 また、ネットワークは以下のようなものを用います。 エンコーダー デコーダー VAEの結果 作成したVAEモデルは以下のような結果になりました。 訓練結果 最初はテストデータの誤差が異常に大きくなっていましたが、正常に訓練できています。 再現画像 上段

    VAEによる画像検索システム - Qiita
    sh19910711
    sh19910711 2024/05/26
    "VAEにより次元圧縮をして、潜在空間上で距離が近いものを検索 / 最初はCIFAR-10でやろうとしていたのですが、カラー画像だとVAEの学習がどうしてもうまくいかないようだった" 2021
  • 特徴抽出器の学習と購買履歴を必要としない類似画像による関連商品検索システム/related-product-search-system-based-on-similar-images

    情報処理学会インターネットと運用技術研究会(IOT) 通算第 37 回 研究会 http://www.iot.ipsj.or.jp/news/iot37-program

    特徴抽出器の学習と購買履歴を必要としない類似画像による関連商品検索システム/related-product-search-system-based-on-similar-images
    sh19910711
    sh19910711 2024/05/26
    "ニューラルネットワーク: 入力が層を経過するごとにタスクに特化した識別箇所を強調 + 最も識別箇所を強調する特徴を出力する識別層手前までからの出力を特徴出力器として採用 / mruby-annoy+ngx_mrubyにより近似近傍探索" 2017
  • pointwise convolution(1x1の畳み込み)で何をやっているか、概念を簡単に理解する - 技術メモ集

    概要 googlenetやmobilenet等、最近のCNNモデルでは、当たり前の様にpointwise convolution(1x1の畳み込み)を使って次元数を調整する・・・等の説明がなされるけれど、1x1で畳み込んでも結局意味ないじゃん?と最初理解に苦しんだので、自分なりにまとめておく。 「1x1の畳み込み」という言葉だけ聞くと、何の意味もないフィルタの様に思えてしまうけれど、実際は1x1xLbeforeという、各層にまたがる細ながーいフィルタを適応している。以下の図の様な細長いフォルタを使って、入力層から重要そうな部分を選別して取り出し、一つの層にまとめている。この処理を出力層分(HxWxLafter回)繰り返すことによって、層数を簡単に任意の値にできるという点が最大のメリット。 以下に、パラメータ、入出力サイズ、メリットについても自分なりの理解をまとめる。 #自分なりの理解なので

    pointwise convolution(1x1の畳み込み)で何をやっているか、概念を簡単に理解する - 技術メモ集
    sh19910711
    sh19910711 2024/05/25
    "pointwise convolution: 次元数を調整 + 1x1xLbeforeという、各層にまたがる細ながーいフィルタを適応 / CPUとGPUの速度差が比較的小さい / 出力にrelu等を与えることによって、非線形性を増すことができる" 2017
  • ⾃⼰教師あり学習によるビジョン基盤モデルの事前学習

    ロボット工学セミナー:「ロボットのためのLLM・VLM 利活用」 2024年5月23日 ⾃⼰教師あり学習は,ラベルなしデータを⽤いた事前学習法である.⾃⼰教師あり学習では,データから正解ラベルを⾃動で作成できるプレテキストタスクにより事前学習を⾏い,様々な下流タスクに効果的な特徴表現を獲得する.対照学習に基づく⼿法が教師あり事前学習法と同程度以上の学習効果が⽰されて以降,対照学習の派⽣⼿法が数多く提案された.また,Vision Transformer (ViT) の台頭以降は,ViT の構造に合わせた⽅法として Masked Image Modeling が提案され,現在に⾄るまで盛んに研究が⾏われている.チュートリアルではまず⾃⼰教師あり学習の概要と代表的な評価⽅法について紹介し,対照学習と Masked Image Modeling ⼿法について解説する.

    ⾃⼰教師あり学習によるビジョン基盤モデルの事前学習
    sh19910711
    sh19910711 2024/05/24
    "自己教師あり学習モデルの評価: 特徴表現を直接評価することは難しい + 下流タスクに対する精度から評価 / 対照学習: バッチ内のデータにおいてペアを見つける + データ拡張により作成したデータ間の類似度や差異を識別"
  • 2022.2.11 第6回 統計・機械学習若手シンポジウム チュートリアル講演 Vision and LanguageとTransformers

    第6回 統計・機械学習若手シンポジウム 2022年2月9日(水)- 11日(金) オンライン開催 https://sites.google.com/view/statsmlsymposium21/

    2022.2.11 第6回 統計・機械学習若手シンポジウム チュートリアル講演 Vision and LanguageとTransformers
    sh19910711
    sh19910711 2024/05/24
    "物体領域特徴抽出: Faster R-CNNが登場 + grid特徴量への回帰 + Transformerを利用したPatchベース / Scene Graph: 物体と物体間の関係性をグラフで表現 / 最適輸送: 画像と言語を教師なしで緩く対応" 2022
  • マルチモーダル学習ライブラリ Heronと⾃動運転への応⽤

    sh19910711
    sh19910711 2024/05/24
    "運転: 人間は無意識のうちに多くの「文脈」を理解している / Heron: 様々なモデルを組み合わせて学習(画像エンコーダ・アダプター・LLM) / 大規模分散学習: ABCIグランドチャレンジで実施 + V100 256基を使用"
  • 論文輪読資料「FaceNet: A Unified Embedding for Face Recognition and Clustering」

    論文輪読資料「FaceNet: A Unified Embedding for Face Recognition and Clustering」

    論文輪読資料「FaceNet: A Unified Embedding for Face Recognition and Clustering」
    sh19910711
    sh19910711 2024/05/24
    "FaceNet: 顔画像からユークリッド空間へのマッピング + オンラインのトリプレット処理で学習 + 128バイトで顔を表現 / Triplet Selection: 全部を計算するのはよくない + nステップごとに部分集合からargminとargmaxを算出" 2015
  • RefineNet (Multi-Path Refinement Network):ディープラーニングによるSemantic Segmentation手法

    これまで、CNNベースのSemantic Segmentation手法は、Encoderで特徴マップを抽出する過程でsub-sampling(down-sampling)を頻繁に行うため、画像のディティールが失われてしまう欠点があった。(そしてそれを克服する方法が模索されてきた) この問題に対し、RefineNetではEncoderの各層で出力される解像度の違う特徴マップを段階的に結合するアプローチを取り、各ステップで行う畳み込み処理にResNet (Residual Network)のresidual connection(skip connection)の仕組みを採用することで学習効率を高めている。 RefineNetのネットワーク構造 RefineNetはEncoderにImageNetで学習済みのResNet101を利用する。ResNet101の各層から出力される特徴マップを解像度

    RefineNet (Multi-Path Refinement Network):ディープラーニングによるSemantic Segmentation手法
    sh19910711
    sh19910711 2024/05/24
    "RefineNet: Semantic Segmentation手法 + Encoder–Decoder構造で設計 + CVPR 2017で発表 / Encoderの各層で出力される解像度の違う特徴マップを段階的に結合するアプローチ / 畳み込み処理にResNetのresidual connectionの仕組み" 2019
  • 教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2…

    教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破チャレンジ報告会)

    教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2…
    sh19910711
    sh19910711 2024/05/22
    "解きたいタスクに有効なデータの特徴表現を擬似的なタスクを事前に解くことで獲得する / Deep Cluster: CNNの中間特徴を元にk-means + クラスタをPseudo labelとして識別 + ImageNetでの実験ではk=10000 (> 1000)が最も良い" 2018
  • 驚くほどキレイな三次元シーン復元、「3D Gaussian Splatting」を徹底的に解説する - Qiita

    はじめに 最近、3D業界で大きな衝撃を与えた「3D Gaussian Splatting」1について、ご存知でしょうか?数少ない写真から、目を奪われるほど美しい三次元シーンを再構成できるデモを見て私も大感動しました。なぜこんなに美しいのか、どんな技術で実現したのか、興味が湧いています! "普通の3D物体ではなく、カメラの移動に合わせて、水面に映る景色も正確に表現しています。これはなかなか凄い..." 私も時間をかけて論文や公開されたコード2を勉強しました。家の実装はCUDA化されており、難解な部分が多く、論文に書かれていないこともあります。そのため、「3D Gaussian Splatting」を勉強したい人にむけ、わかりやすい解説記事を書こうと思いました。単に概念や考え方だけでなく、ゼロから再実装できるように、すべてのロジックを数式として整理し、徹底的に解説しようと思います。 「3D

    驚くほどキレイな三次元シーン復元、「3D Gaussian Splatting」を徹底的に解説する - Qiita
    sh19910711
    sh19910711 2024/05/22
    "3D Gaussian Splatting: ボクセルで空間を分割せず、かなり高密度なガウス分布に従う単位を使うことで、細かい物体の形状を表現 / カメラの姿勢に応じて、見えた3D Gaussianの色を計算"
  • 物体の周辺構造を考慮した教師なし深層学習によるマルチモダリティ位置合わせ

    sh19910711
    sh19910711 2024/05/22
    "位置合わせ: 患者の呼吸や体位の変化により生じる画像間の位置ずれを補正する技術 / 深層学習を用いて変位ベクトル場を推定 + 変位ベクトル場によって浮動画像を空間変換することで位置を合わせる" 2021
  • スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita

    スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装Python機械学習MachineLearningDeepLearningPyTorch 2018/11/27にarXivに投稿された論文「Deformable ConvNets v2: More Deformable, Better Results」で、スケールと形状を学習可能なConvolutionであるModulated Deformable Convolutionが提案されています。おもしろそうな手法だったのでPyTorchで実装してみました。 ソースコードはこちら https://github.com/4uiiurz1/pytorch-deform-conv-v2 Modulated Deformable Co

    スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita
    sh19910711
    sh19910711 2024/05/22
    "segmentationやobject detectionのようなタスクでは、様々なスケールと形状の物体をカバーするようなReceptive Fieldを持つネットワークを設計する必要 / modulation: 入力画素ごとの学習可能な重み(0~1)" arXiv:1811.11168 2018