サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
arxiv-check-250201.firebaseapp.com
Transformer-Based Hierarchical Clustering for Brain Network Analysis 脳ネットワーク、MRI から構築されたものなどのグラフィカル モデルは、脳機能の病理学的予測と分析に広く使用されています。複雑な脳システム内では、ニューロン接続強度の違いにより、脳がさまざまな機能モジュール (ネットワーク コミュニティ) に分割されます。これは、脳の分析にとって重要です。しかし、脳内でそのようなコミュニティを特定することは、神経細胞の相互作用が複雑であるため、重要な問題でした。この作業では、ジョイント階層クラスター識別と脳ネットワーク分類のための新しい解釈可能なトランスフォーマーベースのモデルを提案します。現実世界の脳ネットワーク データセットに関する広範な実験結果は、階層的クラスタリングの助けを借りて、モデルが精度の向上とランタイムの
Learning Disentangled Representations for Controllable Human Motion Prediction 生成モデルベースの動き予測技術は、最近、同様の下半身の動きで複数の上半身の動きを予測するなど、制御された人間の動きの予測を実現しました。ただし、これを実現するには、最先端の方法で、マッピング関数を学習して同様の動きを探すか、モデルを繰り返しトレーニングして体の目的の部分を制御できるようにする必要があります。この論文では、制御可能な人間の動きの予測のための解きほぐされた表現を学習するための新しいフレームワークを提案します。私たちのネットワークには、全身の人間の動きをモデル化するための条件付き変分オートエンコーダー(CVAE)アーキテクチャと、対応する部分的な体(下半身など)の動きのみを学習するための追加のCVAEパスが含まれます。具体的
PVDD: A Practical Video Denoising Dataset with Real-World Dynamic Scenes ビデオノイズ除去の研究を容易にするために、sRGB形式とRAW形式の両方で200のノイズの多いクリーンな動的ビデオペアを含む、説得力のあるデータセット、つまり「実用的なビデオノイズ除去データセット」(PVDD)を構築します。限られたモーション情報で構成される既存のデータセットと比較して、PVDDは変化する自然なモーションのダイナミックシーンをカバーします。プライマリガウス分布またはポアソン分布を使用してsRGBドメインのノイズを合成するデータセットとは異なり、PVDDは、物理的に意味のあるセンサーノイズモデルとそれに続くISP処理を使用して、RAWドメインからの現実的なノイズを合成します。さらに、このデータセットに基づいて、シャッフルベースの実用
Explore Faster Localization Learning For Scene Text Detection 一般に、ディープネットワークに基づく高性能のテキスト検出器を取得するには、事前トレーニングと長時間のトレーニング計算が必要です。この論文では、高速収束速度と正確なテキストローカリゼーションを備えた新しいシーンテキスト検出ネットワーク(FANetと呼ばれる)を紹介します。提案されたFANetは、変圧器の特徴学習と正規化されたフーリエ記述子モデリングに基づくエンドツーエンドのテキスト検出器であり、フーリエ記述子提案ネットワークと反復テキストデコードネットワークは、テキスト提案を効率的かつ正確に識別するように設計されています。さらに、ネットワークパフォーマンスを最適化するために、高密度マッチング戦略と適切に設計された損失関数も提案されています。提案されたFANetがより少な
高ダイナミックレンジ(HDR)画像のゴースト除去のためのモーションセグメンテーションガイド畳み込みニューラルネットワーク(CNN)アプローチを提示します。まず、CNNを使用して、入力シーケンス内の移動領域をセグメント化します。次に、静的領域と移動領域を別々に異なる融合ネットワークでマージし、融合された機能を組み合わせて、ゴーストのない最終的なHDR画像を生成します。当社のモーションセグメンテーションガイド付きHDRフュージョンアプローチは、既存のHDRゴースト除去方法に比べて大きな利点を提供します。まず、入力シーケンスを静的領域と移動領域にセグメント化することにより、提案されたアプローチは、さまざまな困難な飽和および運動タイプの効果的な融合ルールを学習します。次に、飽和領域でもっともらしい詳細を生成するために必要な機能を蓄積する新しいメモリネットワークを紹介します。提案された方法は、2つの
ディープニューラルネットワーク(DNN)とデシジョンツリー(DT)は、どちらも最先端の分類器です。 DNNは、表現学習機能により優れたパフォーマンスを発揮しますが、DTは、入力データに依存する1つのルート(ルートからリーフ)に沿って推論を実行するため、計算効率が高くなります。この論文では、二分木構造のニューラルネットワークであるDecisioNet(DN)を紹介します。既存のDNNをDNに変換して、元のモデルの軽量バージョンを作成する体系的な方法を提案します。 DecisioNetは、両方の長所を活用しています。ニューラルモジュールを使用して表現学習を実行し、ツリー構造を利用して計算の一部のみを実行します。さまざまなDNアーキテクチャを、FashionMNIST、CIFAR10、およびCIFAR100データセットの対応するベースラインモデルとともに評価します。 DNバリアントが、元のネット
You Only Need One Detector: Unified Object Detector for Different Modalities based on Vision Transformers ほとんどのシステムは、RGB画像を処理するためのモデルと深度画像を処理するためのモデルなど、モダリティごとに異なるモデルを使用します。一方、最近のいくつかの研究では、クロスモダリティ転送学習の助けを借りて、あるモダリティの同一モデルを別のモダリティに使用できることがわかりました。この記事では、ビジョントランスフォーマーをクロス/インターモダリティ転送学習と一緒に使用することで、入力としてさまざまなモダリティを使用した場合に、統合検出器がより優れたパフォーマンスを実現できることをさらに理解します。統合モデルは、ロボット工学のために個別のモデルや重みを維持する必要がないため便利です。し
このデモでは、パーソナライズされたファッションデザインのための新しいマルチモーダルインタラクションシステムであるChat-to-Designを紹介します。キーワードに基づいてアパレルを推奨する従来のシステムと比較して、Chat-to-Designを使用すると、ユーザーは2つのステップで服をデザインできます。1)会話による粗い選択と2)インタラクティブなインターフェイスによるきめ細かい編集です。没入型のユーザーエクスペリエンスを提供するために、3つのサブシステムが含まれています。自然言語理解によってユーザーの要求を受け入れ、ダイアログを管理する会話システム。要求されたアパレルを検索するための大規模な事前トレーニング済み言語画像ネットワークによって強化されたマルチモーダルファッション検索システム。取得した衣服の属性を編集するための新しい生成技術によって強化されたファッションデザインシステム。
マルチビュー3Dオブジェクト検出タスクでは、重なり合う画像領域に対する視差監視により、全体的な検出パフォーマンスが大幅に向上します。ただし、現在のマルチビュー3Dオブジェクト検出方法では、オーバーラップ領域内のオブジェクトを適切に検出できないことが多く、ネットワークによるシーンの理解は、単眼検出ネットワークの理解に限定されることがよくあります。この問題を軽減するために、従来のステレオ視差推定方法を適用して、オーバーラップ領域の信頼できる視差情報を取得することをお勧めします。監視としての視差推定を考慮して、双眼画像の幾何学的ポテンシャルを十分に活用するためにネットワークを正規化し、全体的な検出精度を向上させることを提案します。さらに、敵対的オーバーラップ領域弁別器を使用することを提案します。これは、オブジェクトが大部分が閉塞されたり、カメラの歪みによる変形を受けてドメインシフトが発生したりす
Less is More: Adaptive Curriculum Learning for Thyroid Nodule Diagnosis 甲状腺結節の分類は、特定の超音波画像に基づいて、結節が良性か悪性かを判断することを目的としています。ただし、臨床医学のゴールデンスタンダードである細胞生検によって得られたラベルは、超音波画像のTI-RADS基準と常に一致しているわけではありません。 2つの情報の違いにより、既存の深層学習ベースの分類方法は決定的ではありません。一貫性のないラベルの問題を解決するために、一貫性のないラベルを持つサンプルを適応的に検出して破棄する適応カリキュラム学習(ACL)フレームワークを提案します。具体的には、ACLはハードサンプルとモデルの確実性の両方を考慮に入れ、一貫性のないラベルを持つサンプルを区別するためのしきい値を正確に決定できます。さらに、甲状腺結節に関
周囲にエレガントに溶け込んだオブジェクトをセグメント化するカモフラージュオブジェクト検出(COD)は、価値がありながら挑戦的なタスクです。既存の深層学習方法は、完全で細かいオブジェクト構造でカモフラージュされたオブジェクトを正確に識別するのが難しい場合がよくあります。この目的のために、本論文では、カモフラージュされた物体検出のための新しい境界誘導ネットワーク(BGNet)を提案します。私たちの方法は、価値のある余分なオブジェクト関連のエッジセマンティクスを探索して、CODの表現学習をガイドします。これにより、モデルはオブジェクト構造を強調する特徴を生成し、それによって正確な境界ローカリゼーションのカモフラージュされたオブジェクト検出を促進します。 3つの挑戦的なベンチマークデータセットでの広範な実験は、私たちのBGNetが、広く使用されている4つの評価指標の下で既存の18の最先端の方法を大
Backdoor Attack is A Devil in Federated GAN-based Medical Image Synthesis ディープラーニングベースの画像合成技術は、オープンリサーチをサポートするための医用画像を生成するためのヘルスケア研究に適用されています。生成的敵対的ニューラルネットワーク(GAN)のトレーニングには、通常、大量のトレーニングデータが必要です。連合学習(FL)は、生データをローカルに保持しながら、さまざまな医療機関からの分散データを使用して中央モデルをトレーニングする方法を提供します。ただし、中央サーバーが元のデータに直接アクセスできないため、FLはバックドア攻撃に対して脆弱であり、トレーニングデータをポイズニングすることで敵対します。ほとんどのバックドア攻撃戦略は、分類モデルと集中型ドメインに焦点を合わせています。この研究では、バックドア攻撃分
PhotoScene: Photorealistic Material and Lighting Transfer for Indoor Scenes ほとんどの屋内3Dシーン再構成方法は、3Dジオメトリとシーンレイアウトの復元に重点を置いています。この作業では、これを超えて、シーンの入力画像をほぼ整列したCADジオメトリ(自動または手動で再構築)とともに取得し、高品質の素材でフォトリアリスティックなデジタルツインを構築するフレームワークであるPhotoSceneを提案します。同様の照明。手続き型マテリアルグラフを使用してシーンマテリアルをモデル化します。このようなグラフは、フォトリアリスティックで解像度に依存しない素材を表しています。これらのグラフのパラメータとテクスチャのスケールと回転、およびシーンの照明を最適化して、微分可能なレンダリングレイヤーを介して入力画像に最適に一致させます。
Gaussian Kernel-based Cross Modal Network for Spatio-Temporal Video Grounding 時空間ビデオグラウンディング(STVG)は、自然言語クエリに従って意味的に関心のあるオブジェクトの時空間チューブをローカライズすることを目的とした挑戦的なタスクです。以前の作品のほとんどは、Faster R-CNNによって抽出されたアンカーボックスに大きく依存しているだけでなく、ビデオを一連の個別のフレームと見なしているため、時間的モデリングが欠けています。代わりに、この論文では、ガウスカーネルベースのクロスモーダルネットワーク(GKCMN)と呼ばれるSTVGのアンカーフリーフレームワークを最初に提案しました。具体的には、各ビデオフレームの学習済みガウスカーネルベースのヒートマップを利用して、クエリ関連のオブジェクトを特定します。直列接
Golfer: Trajectory Prediction with Masked Goal Conditioning MnM Network トランスフォーマーは、NLPとコンピュータービジョンの飛躍的進歩を可能にし、最近、自動運転車(AV)の軌道予測で有望なパフォーマンスを示し始めました。エゴエージェントと他の道路および動的オブジェクトとの間のインタラクティブな関係を効率的にモデル化する方法は、標準のアテンションモジュールにとって依然として困難です。この作業では、AV軌道予測のための新しいマスクされたゴールコンディショニングトレーニング手順を備えた一般的なトランスフォーマーのようなアーキテクチャモジュールMnMネットワークを提案します。結果として得られたゴルファーという名前のモデルは、最先端のパフォーマンスを達成し、2022年のWaymo Open Dataset Motion Pre
DALG: Deep Attentive Local and Global Modeling for Image Retrieval 深く学習された表現は、検索してから再ランク付けする方法で優れた画像検索パフォーマンスを実現しました。ローカル機能とグローバル機能をヒューリスティックに融合する最近の最先端のシングルステージモデルは、効率と有効性の間の有望なトレードオフを実現します。ただし、既存のソリューションの効率は、マルチスケールの推論パラダイムのために依然として制限されていることに気づきました。このホワイトペーパーでは、シングルステージの技術に従い、マルチスケールテストをうまく取り除くことで、複雑さと効果のバランスをさらに高めます。この目標を達成するために、私たちは、多様な視覚パターンの探索に制限を与える広く使用されている畳み込みネットワークを放棄し、Transformerの成功によって
An adaptive bi-objective optimization algorithm for the satellite image data downlink scheduling problem considering request split 衛星画像データのダウンリンクスケジューリング問題(SIDSP)は、従来の衛星の文献でよく研究されています。衛星技術の最近の発展に伴い、最新の衛星用のSIDSPはより複雑になり、複雑さの新しい次元と衛星の効果的な使用のための追加の機会が追加されました。本論文では、画像データセグメンテーションと画像データダウンリンクの2つの相互リンクされた操作を動的な方法で組み合わせ、それによって追加のモデリングの柔軟性と更新された機能を提供する動的二相衛星画像データダウンリンクスケジューリング問題(D-SIDSP)を紹介します。 。 D-SIDSPは
PROTOtypical Logic Tensor Networks (PROTO-LTN) for Zero Shot Learning セマンティック画像の解釈は、サブシンボリック分散表現学習と、より高いレベルの抽象化で推論する機能を組み合わせたアプローチから大きな恩恵を受けることができます。論理テンソルネットワーク(LTN)は、深いニューラルネットワークに基づいた微分可能な一階述語論理に基づく神経シンボリックシステムのクラスです。 LTNは、トレーニングセットの古典的な概念をファジー論理公理の知識ベースに置き換えます。微分可能演算子のセットを定義して、連結語、述語、関数、および数量詞の役割を概算することにより、損失関数が自動的に指定され、LTNが知識ベースを満たすことを学習できるようになります。ここでは、ほとんどのセマンティック画像解釈タスクをエンコードするための基本である包含または
TINC: Temporally Informed Non-Contrastive Learning for Disease Progression Modeling in Retinal OCT Volumes 最近の対照的な学習方法は、低ラベルレジームで最先端を達成しました。ただし、トレーニングでは、画像の複数のビューを作成するために、大きなバッチサイズと大幅な拡張が必要です。非対照的な方法では、ネガは暗黙的に損失に組み込まれ、異なる画像とモダリティをペアとして使用できます。医用画像のメタ情報(年齢、性別など)は豊富ですが、注釈はノイズが多く、クラスのバランスが崩れがちです。この作業では、複雑さを増したり、負のペアを必要としたりすることなく、時間情報に基づく非対照損失(TINC)を使用して、縦方向光コヒーレンストモグラフィー(OCT)データセットの既存の時間情報(患者からのさまざまな訪
Neural Rendering for Stereo 3D Reconstruction of Deformable Tissues in Robotic Surgery 内視鏡ステレオビデオからのロボット手術における軟組織の再構築は、術中ナビゲーションや画像誘導ロボット手術自動化などの多くのアプリケーションにとって重要です。このタスクに関するこれまでの作業は、主にSLAMベースのアプローチに依存しており、複雑な手術シーンの処理に苦労しています。神経レンダリングの最近の進歩に触発されて、単一の視点の設定の下でのロボット手術における両眼のキャプチャからの変形可能な組織の再構築のための新しいフレームワークを提示します。私たちのフレームワークは、動的な神経放射輝度フィールドを採用して、MLPで変形可能な手術シーンを表現し、学習ベースの方法で形状と変形を最適化します。非剛体変形に加えて、単一の視
このペーパーでは、DFGC2022コンペティションの概要レポートを紹介します。 DeepFakeは急速に進化しており、現実的なフェイススワップはより欺瞞的で検出が困難になっています。それどころか、DeepFakesを検出する方法も改善されています。 DeepFakeの作成者と防御者の間には2者間のゲームがあります。このコンテストは、DeepFakeの作成方法と検出方法の現在の最先端技術の間でゲームのベンチマークを行うための共通のプラットフォームを提供します。この競争で答えられるべき主な研究の質問は、互いに競争したときの2人の敵の現状です。これは、昨年のDFGC 2021に続く第2版であり、新しい、より多様なビデオデータセット、より現実的なゲーム設定、およびより合理的な評価指標を備えています。このコンテストでは、DeepFakeの脅威に対するより優れた防御を構築するための研究アイデアを刺激す
Detecting and Recovering Adversarial Examples from Extracting Non-robust and Highly Predictive Adversarial Perturbations ディープニューラルネットワーク(DNN)は、ターゲットモデルをだますために悪意を持って設計された敵対的な例(AE)に対して脆弱であることが示されています。知覚できない敵対的摂動が追加された通常の例(NE)は、DNNに対するセキュリティ上の脅威となる可能性があります。既存のAE検出方法は高精度を達成しましたが、検出されたAEの情報を活用できませんでした。したがって、高次元の摂動抽出に基づいて、モデルフリーのAE検出方法を提案します。この方法では、プロセス全体で被害者モデルを照会する必要がありません。調査によると、DNNは高次元の機能に敏感です。敵対的な例
Timestamp-Supervised Action Segmentation with Graph Convolutional Networks タイムスタンプ監視による時間的活動セグメンテーションのための新しいアプローチを紹介します。私たちの主な貢献はグラフ畳み込みネットワークです。これは、フレームの特徴と隣接するフレーム間の接続の両方を活用して、まばらなタイムスタンプラベルから高密度のフレーム単位のラベルを生成するためにエンドツーエンドの方法で学習されます。生成された密なフレーム単位のラベルは、セグメンテーションモデルのトレーニングに使用できます。さらに、セグメンテーションモデルとグラフ畳み込みモデルの両方を交互に学習するためのフレームワークを提案します。これは、最初に初期化してから、学習したモデルを繰り返し改良します。 50サラダ、GTEA、朝食、デスクトップアセンブリを含む、4
生成的敵対的ネットワーク(GAN)は、入力された実像に対応する潜在コードを反転および操作することにより、画像編集に驚くほど効率的であることが証明されています。この編集特性は、潜在的な空間の解きほぐされた性質から生まれます。この論文では、顔の属性の解きほぐしが最適ではないことを確認しました。したがって、線形属性の分離に依存する顔の編集には欠陥があります。したがって、私たちは、監督によって意味論的解きほぐしを改善することを提案します。私たちの方法は、正規化フローを使用してプロキシ潜在表現を学習することで構成されており、これが顔画像編集のためのより効率的なスペースにつながることを示しています。 Generative adversarial networks (GANs) have proven to be surprisingly efficient for image editing by i
混合とは、元々は経験的リスク最小化(ERM)を超える方法として動機付けられた、補間ベースのデータ拡張を指します。それでも、その拡張は補間の定義とそれが行われる空間に焦点を合わせていますが、拡張自体はあまり研究されていません。サイズmのミニバッチの場合、ほとんどのメソッドは単一のスカラー補間係数λでmペア間を補間します。この作業では、MultiMixを導入することにより、この方向に進んでいます。MultiMixは、タプルごとに1つのベクトルλを使用して、それぞれ長さmの任意の数nのタプルを補間します。シーケンスデータについては、さらに、すべての空間位置での密な内挿と損失の計算に拡張します。全体として、追加コストをほとんどかけずに、ミニバッチあたりのタプルの数を桁違いに増やします。これは、分類子の前の最後のレイヤーで補間することで可能になります。最後に、線形ターゲット補間による不整合に対処する
Causality for Inherently Explainable Transformers: CAT-XPLAIN 事前に訓練されたブラックボックスニューラルネットワークを説明するために開発されたいくつかの事後説明アプローチがあります。ただし、本質的に説明可能なニューラルネットワークの設計に向けた研究努力にはまだギャップがあります。この論文では、最近提案されたインスタンスごとの事後因果的説明方法を利用して、既存のトランスアーキテクチャを本質的に説明可能にします。トレーニングが完了すると、モデルは、特定のインスタンスの入力スペースの上位k領域の形式で説明を提供し、その決定に貢献します。 MNIST、FMNIST、CIFARの3つの画像データセットを使用して、二項分類タスクの方法を評価します。私たちの結果は、因果関係に基づく事後説明モデルと比較して、私たちの本質的に説明可能なモデルは、
Procrustes Analysis with Deformations: A Closed-Form Solution by Eigenvalue Decomposition 一般化プロクラステス解析(GPA)は、変換を推定することによって複数の形状を共通の参照に取り込む問題です。 GPAは、ユークリッド変換とアフィン変換について広く研究されてきました。変形可能な変換を備えたGPAを紹介します。これは、はるかに広く困難な問題を形成します。具体的には、線形基底ワープ(LBW)と呼ばれる変換のクラスを研究します。これには、アフィン変換と、Thin-Plate Spline(TPS)などの通常の変形モデルのほとんどが含まれます。変形を伴うGPAは、非凸の制約の少ない問題です。形状共分散の固有値を必要とする2つの形状制約を使用して、変形可能なGPAの基本的なあいまいさを解決します。これらの固有
RegMixup:正則化としてのMixupは、精度とアウトディストリビューションの堅牢性を驚くほど向上させることができます RegMixup: Mixup as a Regularizer Can Surprisingly Improve Accuracy and Out Distribution Robustness 有名なMixup[Zhanget al。、2018]を唯一の学習目標として使用する代わりに、標準のクロスエントロピー損失に対する追加の正則化として使用すると、その有効性をさらに改善できることを示します。この単純な変更により、精度が大幅に向上するだけでなく、さまざまな形式の共変量シフトおよび分布外検出実験の下で、ほとんどの場合、Mixupの予測不確実性推定の品質が大幅に向上します。実際、経験的に示したように、Mixupは、全体にわたって高エントロピーを示すモデルを学習する傾向
Single-domain Generalization in Medical Image Segmentation via Test-time Adaptation from Shape Dictionary ドメインの一般化には、通常、モデル学習のために複数のソースドメインからのデータが必要です。ただし、特にデータ共有が非常に懸念され、プライバシーの問題のために禁止されることがある医療分野では、このような強い仮定が常に実際に当てはまるとは限りません。このホワイトペーパーでは、重要でありながら挑戦的な単一ドメインの一般化の問題について研究します。この問題では、1つのソースドメインのみを使用して最悪のシナリオでモデルを学習し、さまざまな見えないターゲットドメインに直接一般化します。医療画像セグメンテーションにおけるこの問題に対処するための新しいアプローチを提示します。これは、ドメイン間で不
次のページ
このページを最初にブックマークしてみませんか?
『arXiv reaDer』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く