Most Cited CVPR &quot;cross-modal representation&quot; Papers

CVPR 2025arXiv:2505.21591

#4202

Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning

Maosen Zhao, Pengtao Chen, Chong Yu et al.

CVPR 2025arXiv:2503.23024

#4203

Empowering Large Language Models with 3D Situation Awareness

Zhihao Yuan, Yibo Peng, Jinke Ren et al.

CVPR 2025arXiv:2503.09402

#4204

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

Kevin Qinghong Lin, Mike Zheng Shou

#4205

UNICL-SAM: Uncertainty-Driven In-Context Segmentation with Part Prototype Discovery

Dianmo Sheng, Dongdong Chen, Zhentao Tan et al.

CVPR 2025arXiv:2410.06664

#4206

Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning

Qianli Ma, Xuefei Ning, Dongrui Liu et al.

#4207

Making Old Film Great Again: Degradation-aware State Space Model for Old Film Restoration

Yudong Mao, Hao Luo, Zhiwei Zhong et al.

CVPR 2025arXiv:2502.21130

#4208

Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning

Jiuyang Dong, Junjun Jiang, Kui Jiang et al.

CVPR 2024arXiv:2312.05264

#4209

All Rivers Run to the Sea: Private Learning with Asymmetric Flows

Yue Niu, Ramy E. Ali, Saurav Prakash et al.

CVPR 2025highlightarXiv:2411.08753

#4210

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos

Sagnik Majumder, Tushar Nagarajan, Ziad Al-Halah et al.

CVPR 2025arXiv:2505.03116

#4211

TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion

Haoyue Liu, Jinghan Xu, Yi Chang et al.

CVPR 2025arXiv:2503.08147

#4212

FilmComposer: LLM-Driven Music Production for Silent Film Clips

Zhifeng Xie, Qile He, Youjia Zhu et al.

CVPR 2025arXiv:2502.19937

#4213

Image Referenced Sketch Colorization Based on Animation Creation Workflow

Dingkun Yan, Xinrui Wang, Zhuoru Li et al.

CVPR 2025arXiv:2503.14564

#4214

Effortless Active Labeling for Long-Term Test-Time Adaptation

Guowei Wang, Changxing Ding

CVPR 2025arXiv:2503.19232

#4215

HoGS: Unified Near and Far Object Reconstruction via Homogeneous Gaussian Splatting

Xinpeng Liu, Zeyi Huang, Fumio Okura et al.

CVPR 2025arXiv:2411.18025

#4216

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

Jinneyong Kim, Seung-Hwan Baek

#4217

Cheb-GR: Rethinking K-nearest Neighbor Search in Re-ranking for Person Re-identification

Jinxi Yang, He Li, Bo Du et al.

CVPR 2025arXiv:2411.19041

#4218

TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition

yilong wang, Zilin Gao, Qilong Wang et al.

#4219

Parameterized Blur Kernel Prior Learning for Local Motion Deblurring

Zhenxuan Fang, Fangfang Wu, Tao Huang et al.

#4220

Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute Recognition

Junyi Wu, Yan Huang, Min Gao et al.

CVPR 2025arXiv:2501.12390

#4221

GPS as a Control Signal for Image Generation

Chao Feng, Ziyang Chen, Aleksander Holynski et al.

#4222

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models

Dongnan Gui, Xun Guo, Wengang Zhou et al.

CVPR 2025arXiv:2506.19488

#4223

SceneCrafter: Controllable Multi-View Driving Scene Editing

Zehao Zhu, Yuliang Zou, Chiyu “Max” Jiang et al.

CVPR 2025arXiv:2503.00746

#4224

DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting

Liao Shen, Tianqi Liu, Huiqiang Sun et al.

CVPR 2025arXiv:2503.12124

#4225

Z-Magic: Zero-shot Multiple Attributes Guided Image Creator

Yingying Deng, Xiangyu He, Fan Tang et al.

CVPR 2025arXiv:2506.03512

#4226

EDCFlow: Exploring Temporally Dense Difference Maps for Event-based Optical Flow Estimation

Daikun Liu, Lei Cheng, Teng Wang et al.

CVPR 2025arXiv:2411.19292

#4227

UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation

Yichong Lu, Yichi Cai, Shangzhan Zhang et al.

CVPR 2025highlightarXiv:2506.03605

#4228

Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision

Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura et al.

#4229

BLADE: Single-view Body Mesh Estimation through Accurate Depth Estimation

Shengze Wang, Jiefeng Li, Tianye Li et al.

CVPR 2025arXiv:2502.03494

#4230

Integral Fast Fourier Color Constancy

Wenjun Wei, Yanlin Qian, Huaian Chen et al.

CVPR 2025arXiv:2405.00794

#4231

Coherent 3D Portrait Video Reconstruction via Triplane Fusion

Shengze Wang, Xueting Li, Chao Liu et al.

CVPR 2025arXiv:2505.17475

#4232

PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation

Uyoung Jeong, Jonathan Freer, Seungryul Baek et al.

CVPR 2025highlightarXiv:2504.05576

#4233

SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding

Mingfei Chen, Israel D. Gebru, Ishwarya Ananthabhotla et al.

CVPR 2025highlightarXiv:2503.00605

#4234

GenVDM: Generating Vector Displacement Maps From a Single Image

Yuezhi Yang, Qimin Chen, Vladimir G. Kim et al.

CVPR 2025arXiv:2411.16154

#4235

DeDe: Detecting Backdoor Samples for SSL Encoders via Decoders

Sizai Hou, Songze Li, Duanyi Yao

#4236

Rethinking Correspondence-based Category-Level Object Pose Estimation

Huan Ren, Wenfei Yang, Shifeng Zhang et al.

CVPR 2025arXiv:2503.15234

#4237

CoE: Chain-of-Explanation via Automatic Visual Concept Circuit Description and Polysemanticity Quantification

wenlong yu, Qilong Wang, Chuang Liu et al.

CVPR 2025arXiv:2506.05175

#4238

Track Any Anomalous Object:A Granular Video Anomaly Detection Pipeline

Yuzhi Huang, Chenxin Li, Haitao Zhang et al.

CVPR 2025arXiv:2404.16323

#4239

LeanGaussian: Breaking Pixel or Point Cloud Correspondence in Modeling 3D Gaussians

Jiamin WU, Kenkun Liu, Han Gao et al.

CVPR 2024arXiv:2312.00778

#4240

MorpheuS: Neural Dynamic 360° Surface Reconstruction from Monocular RGB-D Video

Hengyi Wang, Jingwen Wang, Lourdes Agapito

#4241

Generative Map Priors for Collaborative BEV Semantic Segmentation

Jiahui Fu, Yue Gong, Luting Wang et al.

CVPR 2025highlightarXiv:2412.02690

#4242

FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation

Kefan Chen, Chaerin Min, Linguang Zhang et al.

#4243

HardMo: A Large-Scale Hardcase Dataset for Motion Capture

Jiaqi Liao, Chuanchen Luo, Yinuo Du et al.

CVPR 2025arXiv:2504.03800

#4244

Decision SpikeFormer: Spike-Driven Transformer for Decision Making

Wei Huang, Qinying Gu, Nanyang Ye

CVPR 2025arXiv:2503.05665

#4245

AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data

Zengqun Zhao, Ziquan Liu, Yu Cao et al.

CVPR 2025highlightarXiv:2503.17417

#4246

Generative Modeling of Class Probability for Multi-Modal Representation Learning

JungKyoo Shin, Bumsoo Kim, Eunwoo Kim

CVPR 2025arXiv:2503.21003

#4247

Forensic Self-Descriptions Are All You Need for Zero-Shot Detection, Open-Set Source Attribution, and Clustering of AI-generated Images

Tai Nguyen, Aref Azizpour, Matthew Stamm

CVPR 2025arXiv:2506.11131

#4248

Segment This Thing: Foveated Tokenization for Efficient Point-Prompted Segmentation

Tanner Schmidt, Richard Newcombe

CVPR 2025arXiv:2411.15224

#4249

Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation

Seokil Ham, Hee-Seon Kim, Sangmin Woo et al.

CVPR 2025arXiv:2505.20283

#4250

Category-Agnostic Neural Object Rigging

Guangzhao He, Chen Geng, Shangzhe Wu et al.

CVPR 2025arXiv:2505.10841

#4251

RefPose: Leveraging Reference Geometric Correspondences for Accurate 6D Pose Estimation of Unseen Objects

Jaeguk Kim, Jaewoo Park, Keuntek Lee et al.

CVPR 2025arXiv:2504.05265

#4252

From Sparse Signal to Smooth Motion: Real-Time Motion Generation with Rolling Prediction Models

German Barquero, Nadine Bertsch, Manojkumar Marramreddy et al.

#4253

FlexDrive: Toward Trajectory Flexibility in Driving Scene Gaussian Splatting Reconstruction and Rendering

Jingqiu Zhou, Lue Fan, Linjiang Huang et al.

CVPR 2025arXiv:2503.18368

#4254

MoST: Efficient Monarch Sparse Tuning for 3D Representation Learning

Xu Han, Yuan Tang, Jinfeng Xu et al.

CVPR 2025arXiv:2504.06752

#4255

Compass Control: Multi Object Orientation Control for Text-to-Image Generation

Rishubh Parihar, Vaibhav Agrawal, Sachidanand VS et al.

CVPR 2024arXiv:2406.07785

#4256

From Variance to Veracity: Unbundling and Mitigating Gradient Variance in Differentiable Bundle Adjustment Layers

Swaminathan Gurumurthy, Karnik Ram, Bingqing Chen et al.

CVPR 2025arXiv:2503.21397

#4257

ProHOC: Probabilistic Hierarchical Out-of-Distribution Classification via Multi-Depth Networks

Erik Wallin, Fredrik Kahl, Lars Hammarstrand

CVPR 2025arXiv:2503.00861

#4258

Zero-Shot Head Swapping in Real-World Scenarios

Sohyun Jeong, Taewoong Kang, Hyojin Jang et al.

#4259

EAP-GS: Efficient Augmentation of Pointcloud for 3D Gaussian Splatting in Few-shot Scene Reconstruction

Dongrui Dai, Yuxiang Xing

#4260

DeepCompress-ViT: Rethinking Model Compression to Enhance Efficiency of Vision Transformers at the Edge

Sabbir Ahmed, Abdullah Al Arafat, Deniz Najafi et al.

#4261

RepAn: Enhanced Annealing through Re-parameterization

Xiang Fei, Xiawu Zheng, Yan Wang et al.

#4262

DH-Set: Improving Vision-Language Alignment with Diverse and Hybrid Set-Embeddings Learning

Kun Zhang, Jingyu Li, Zhe Li et al.

#4263

Pre-training Vision Models with Mandelbulb Variations

Benjamin N. Chiche, Yuto Horikawa, Ryo Fujita

CVPR 2025arXiv:2411.16801

#4264

Controllable Human Image Generation with Personalized Multi-Garments

Yisol Choi, Sangkyung Kwak, Sihyun Yu et al.

CVPR 2025highlightarXiv:2506.09343

#4265

CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation

Yuxing Long, Jiyao Zhang, Mingjie Pan et al.

CVPR 2025arXiv:2504.07758

#4266

PIDSR: Complementary Polarized Image Demosaicing and Super-Resolution

Shuangfan Zhou, Chu Zhou, Youwei Lyu et al.

CVPR 2024arXiv:2403.14430

#4267

Ranking Distillation for Open-Ended Video Question Answering with Insufficient Labels

Tianming Liang, Chaolei Tan, Beihao Xia et al.

CVPR 2025arXiv:2412.08859

#4268

ViUniT: Visual Unit Tests for More Robust Visual Programming

Artemis Panagopoulou, Honglu Zhou, silvio savarese et al.

CVPR 2025arXiv:2503.18312

#4269

Diff-Palm: Realistic Palmprint Generation with Polynomial Creases and Intra-Class Variation Controllable Diffusion Models

Jianlong Jin, Chenglong Zhao, Ruixin Zhang et al.

CVPR 2025arXiv:2503.19295

#4270

Exploring Semantic Feature Discrimination for Perceptual Image Super-Resolution and Opinion-Unaware No-Reference Image Quality Assessment

Guanglu Dong, Xiangyu Liao, Mingyang Li et al.

CVPR 2025arXiv:2506.02893

#4271

Dense Match Summarization for Faster Two-view Estimation

Jonathan Astermark, Anders Heyden, Viktor Larsson

CVPR 2024highlightarXiv:2312.05995

#4272

From Correspondences to Pose: Non-minimal Certifiably Optimal Relative Pose without Disambiguation

Javier Tirado-Garín, Javier Civera

CVPR 2025arXiv:2504.09990

#4273

Correlative and Discriminative Label Grouping for Multi-Label Visual Prompt Tuning

Lei-Lei Ma, Shuo Xu, Ming-Kun Xie et al.

CVPR 2025arXiv:2503.21772

#4274

LOCORE: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao, Pavel Suma, Ayush Sachdeva et al.

CVPR 2025arXiv:2411.15648

#4275

Sample- and Parameter-Efficient Auto-Regressive Image Models

Elad Amrani, Leonid Karlinsky, Alex M. Bronstein

CVPR 2025arXiv:2410.13569

#4276

Learning on Model Weights using Tree Experts

Eliahu Horwitz, Bar Cavia, Jonathan Kahana et al.

#4277

Rethinking Token Reduction with Parameter-Efficient Fine-Tuning in ViT for Pixel-Level Tasks

Cheng Lei, Ao Li, Hu Yao et al.

#4278

Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding

Yuxuan Wang, Aming Wu, Muli Yang et al.

CVPR 2025arXiv:2411.15265

#4279

Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAI

Won Jun Kim, Hyungjin Chung, Jaemin Kim et al.

CVPR 2025arXiv:2503.21694

#4280

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

Zhiyuan Ma, Xinyue Liang, Rongyuan Wu et al.

CVPR 2024arXiv:2403.00272

#4281

Dual Pose-invariant Embeddings: Learning Category and Object-specific Discriminative Representations for Recognition and Retrieval

Rohan Sarkar, Avinash Kak

CVPR 2025arXiv:2503.03132

#4282

Dynamic Neural Surfaces for Elastic 4D Shape Representation and Analysis

Awais Nizamani, Hamid Laga, Guanjin Wang et al.

CVPR 2025arXiv:2503.16184

#4283

Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation

Andrea Maracani, Savas Ozkan, Sijun Cho et al.

CVPR 2025arXiv:2502.06682

#4284

Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene

Tai-Yu Daniel Pan, Sooyoung Jeon, Mengdi Fan et al.

#4285

Boosting the Dual-Stream Architecture in Ultra-High Resolution Segmentation with Resolution-Biased Uncertainty Estimation

Rong Qin, Xingyu Liu, Jinglei Shi et al.

CVPR 2024arXiv:2406.00195

#4286

SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model

Zhengang Li, Yan Kang, Yuchen Liu et al.

#4287

Just Dance with pi! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection

Snehashis Majhi, Giacomo D'Amicantonio, Antitza Dantcheva et al.

CVPR 2025arXiv:2503.02841

#4288

Boltzmann Attention Sampling for Image Analysis with Small Objects

Theodore Zhao, Sid Kiblawi, Mu Wei et al.

CVPR 2025arXiv:2503.08639

#4289

GBlobs: Explicit Local Structure via Gaussian Blobs for Improved Cross-Domain LiDAR-based 3D Object Detection

Dušan Malić, Christian Fruhwirth-Reisinger, Samuel Schulter et al.

CVPR 2025arXiv:2503.23388

#4290

COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time Adaptation

Fanding Huang, Jingyan Jiang, Qinting Jiang et al.

CVPR 2025highlightarXiv:2504.02823

#4291

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

Divya Velayudhan, Abdelfatah Ahmed, Mohamad Alansari et al.

CVPR 2025arXiv:2504.05499

#4292

Few-shot Personalized Scanpath Prediction

Ruoyu Xue, Jingyi Xu, Sounak Mondal et al.

CVPR 2025arXiv:2503.14897

#4293

When Domain Generalization meets Generalized Category Discovery: An Adaptive Task-Arithmetic Driven Approach

Vaibhav Rathore, Shubhranil B, Saikat Dutta et al.

CVPR 2024arXiv:2404.13103

#4294

ToNNO: Tomographic Reconstruction of a Neural Network’s Output for Weakly Supervised Segmentation of 3D Medical Images

Marius Schmidt-Mengin, Alexis Benichoux, Shibeshih Belachew et al.

#4295

Residual Learning in Diffusion Models

Junyu Zhang, Daochang Liu, Eunbyung Park et al.

CVPR 2024highlight

#4296

STDD: Spatio-Temporal Dual Diffusion for Video Generation

Shuaizhen Yao, Xiaoya Zhang, Xin Liu et al.

CVPR 2025arXiv:2503.20011

#4297

Hyperdimensional Uncertainty Quantification for Multimodal Uncertainty Fusion in Autonomous Vehicles Perception

Luke Chen, Junyao Wang, Trier Mortlock et al.

CVPR 2025arXiv:2505.00998

#4298

Deterministic-to-Stochastic Diverse Latent Feature Mapping for Human Motion Synthesis

Hua Yu, Weiming Liu, Gui Xu et al.

CVPR 2025highlightarXiv:2505.09393

#4299

UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units

Huakun Liu, Hiroki Ota, Xin Wei et al.

CVPR 2025arXiv:2409.19425

#4300

Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment

Mayug Maniparambil, Raiymbek Akshulakov, YASSER ABDELAZIZ DAHOU DJILALI et al.

CVPR 2025arXiv:2503.06746

#4301

Color Alignment in Diffusion

Ka Chun SHUM, Binh-Son Hua, Thanh Nguyen et al.

#4302

Enhancing Adversarial Transferability with Checkpoints of a Single Model’s Training

Shixin Li, Chaoxiang He, Xiaojing Ma et al.

CVPR 2025arXiv:2503.22136

#4303

Beyond Background Shift: Rethinking Instance Replay in Continual Semantic Segmentation

Hongmei Yin, Tingliang Feng, Fan Lyu et al.

CVPR 2025arXiv:2503.19307

#4304

Analyzing the Synthetic-to-Real Domain Gap in 3D Hand Pose Estimation

Zhuoran ZHAO, Linlin Yang, Pengzhan Sun et al.

#4305

EntitySAM: Segment Everything in Video

Mingqiao Ye, Seoung Wug Oh, Lei Ke et al.

#4306

Identifying and Mitigating Spurious Correlation in Multi-Task Learning

Junyi Chai, Shenyu Lu, Xiaoqian Wang

#4307

GBC-Splat: Generalizable Gaussian-Based Clothed Human Digitalization under Sparse RGB Cameras

Hanzhang Tu, Zhanfeng Liao, Boyao Zhou et al.

CVPR 2025arXiv:2503.23606

#4308

Blurry-Edges: Photon-Limited Depth Estimation from Defocused Boundaries

Wei Xu, Charlie Wagner, Junjie Luo et al.

CVPR 2025arXiv:2412.15396

#4309

Learning Visual Composition through Improved Semantic Guidance

Austin Stone, Hagen Soltau, Robert Geirhos et al.

#4310

Overcoming Shortcut Problem in VLM for Robust Out-of-Distribution Detection

Zhuo Xu, Xiang Xiang, Yifan Liang

CVPR 2025highlightarXiv:2503.01214

#4311

One-Step Event-Driven High-Speed Autofocus

Yuhan Bao, Shaohua Gao, Wenyong Li et al.

CVPR 2025arXiv:2505.08013

#4312

RDD: Robust Feature Detector and Descriptor using Deformable Transformer

Gonglin Chen, Tianwen Fu, Haiwei Chen et al.

CVPR 2025highlightarXiv:2503.18578

#4313

Galaxy Walker: Geometry-aware VLMs For Galaxy-scale Understanding

Tianyu Chen, Xingcheng Fu, Yisen Gao et al.

#4314

Test-Time Fine-Tuning of Image Compression Models for Multi-Task Adaptability

Unki Park, Seongmoon Jeong, Jang Youngchan et al.

CVPR 2025arXiv:2406.11643

#4315

CustAny: Customizing Anything from A Single Example

Lingjie Kong, Kai WU, Chengming Xu et al.

CVPR 2025arXiv:2505.05711

#4316

DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer

Ho-Joong Kim, Yearang Lee, Jung-Ho Hong et al.

#4317

Distinguish Then Exploit: Source-free Open Set Domain Adaptation via Weight Barcode Estimation and Sparse Label Assignment

Weiming Liu, Jun Dan, Fan Wang et al.

#4318

Deep Fair Multi-View Clustering with Attention KAN

HaiMing Xu, Qianqian Wang, Boyue Wang et al.

CVPR 2025arXiv:2505.01237

#4319

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

Edson Araujo, Andrew Rouditchenko, Yuan Gong et al.

CVPR 2025arXiv:2412.01485

#4320

SerialGen: Personalized Image Generation by First Standardization Then Personalization

Cong Xie, Han Zou, Ruiqi Yu et al.

CVPR 2025arXiv:2503.05283

#4321

Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces

Souhail Hadgi, Luca Moschella, Andrea Santilli et al.

CVPR 2025arXiv:2503.13693

#4322

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

Eitan Shaar, Ariel Shaulov, Gal Chechik et al.

CVPR 2025arXiv:2411.16129

#4323

Three Cars Approaching within 100m! Enhancing Distant Geometry by Tri-Axis Voxel Scanning for Camera-based Semantic Scene Completion

Jongseong Bae, Junwoo Ha, Ha Young Kim

CVPR 2025arXiv:2407.21616

#4324

EZSR: Event-based Zero-Shot Recognition

Yan Yang, Liyuan Pan, Dongxu Li et al.

CVPR 2025arXiv:2412.16028

#4325

CoCoGaussian: Leveraging Circle of Confusion for Gaussian Splatting from Defocused Images

Jungho Lee, Suhwan Cho, Taeoh Kim et al.

CVPR 2025arXiv:2412.02635

#4326

MetaShadow: Object-Centered Shadow Detection, Removal, and Synthesis

Tianyu Wang, Jianming Zhang, Haitian Zheng et al.

#4327

Unsupervised Continual Domain Shift Learning with Multi-Prototype Modeling

Haopeng Sun, Yingwei Zhang, Lumin Xu et al.

CVPR 2025highlightarXiv:2410.23864

#4328

Understanding Multi-layered Transmission Matrices

Marina Alterman, Anat Levin

#4329

Insightful Instance Features for 3D Instance Segmentation

Wonseok Roh, Hwanhee Jung, Giljoo Nam et al.

CVPR 2025arXiv:2504.18524

#4330

Augmenting Perceptual Super-Resolution via Image Quality Predictors

Fengjia Zhang, Samrudhdhi Rangrej, Tristan T Aumentado-Armstrong et al.

CVPR 2025arXiv:2412.17684

#4331

COBRA: COmBinatorial Retrieval Augmentation for Few-Shot Adaptation

Arnav Mohanty Das, Gantavya Bhatt, Lilly Kumari et al.

#4332

Perceptual Video Compression with Neural Wrapping

Muhammad Umar Karim Khan, Aaron Chadha, Mohammad Ashraful Anam et al.

#4333

TexGarment: Consistent Garment UV Texture Generation via Efficient 3D Structure-Guided Diffusion Transformer

Jialun Liu, Jinbo Wu, Xiaobo Gao et al.

#4334

Multi-Modal Aerial-Ground Cross-View Place Recognition with Neural ODEs

Sijie Wang, Rui She, Qiyu Kang et al.

#4335

Person De-reidentification: A Variation-guided Identity Shift Modeling

Yi-Xing Peng, Yu-Ming Tang, Kun-Yu Lin et al.

#4336

Hyperbolic Uncertainty-Aware Few-Shot Incremental Point Cloud Segmentation

Tanuj Sur, Samrat Mukherjee, Kaizer Rahaman et al.

#4337

Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation

Chenggong Ni, Fan Lyu, Jiayao Tan et al.

CVPR 2025arXiv:2504.14254

#4338

Visual Consensus Prompting for Co-Salient Object Detection

Jie Wang, Nana Yu, Zihao Zhang et al.

CVPR 2025highlightarXiv:2503.01261

#4339

Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text

Guotao liang, Baoquan Zhang, Zhiyuan Wen et al.

CVPR 2025arXiv:2411.16185

#4340

Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation

Qiao Yu, Xianzhi Li, Yuan Tang et al.

CVPR 2024arXiv:2404.14908

#4341

Mining Supervision for Dynamic Regions in Self-Supervised Monocular Depth Estimation

Hoang Chuong Nguyen, Tianyu Wang, Jose M. Alvarez et al.

CVPR 2025arXiv:2504.02168

#4342

MDP: Multidimensional Vision Model Pruning with Latency Constraint

Xinglong Sun, Barath Lakshmanan, Maying Shen et al.

CVPR 2025arXiv:2503.14463

#4343

SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion Model

Yucheng Mao, Boyang Wang, Nilesh Kulkarni et al.

CVPR 2025arXiv:2503.06237

#4344

Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection

Yifan Chang, Junjie Huang, Xiaofeng Wang et al.

CVPR 2025arXiv:2504.15118

#4345

Improving Sound Source Localization with Joint Slot Attention on Image and Audio

Inho Kim, YOUNGKIL SONG, Jicheol Park et al.

CVPR 2025arXiv:2503.22984

#4346

Optimal Transport-Guided Source-Free Adaptation for Face Anti-Spoofing

Zhuowei Li, Tianchen Zhao, Xiang Xu et al.

#4347

BOE-ViT: Boosting Orientation Estimation with Equivariance in Self-Supervised 3D Subtomogram Alignment

Runmin Jiang, Jackson Daggett, Shriya Pingulkar et al.

#4348

RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling Scheduler

Xin Ding, Lei Yu, Xin Li et al.

CVPR 2025arXiv:2503.19706

#4349

Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations

Jungin Park, Jiyoung Lee, Kwanghoon Sohn

CVPR 2025arXiv:2505.03097

#4350

Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability

Lei Wang, Senmao Li, Fei Yang et al.

#4351

Prompt3D: Random Prompt Assisted Weakly-Supervised 3D Object Detection

Xiaohong Zhang, Huisheng Ye, Jingwen Li et al.

#4352

Beyond Human Perception: Understanding Multi-Object World from Monocular View

Keyu Guo, Yongle Huang, Shijie Sun et al.

CVPR 2025arXiv:2504.00380

#4353

Hierarchical Flow Diffusion for Efficient Frame Interpolation

Yang Hai, Guo Wang, Tan Su et al.

CVPR 2025arXiv:2505.04915

#4354

GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing

Tong Wang, Ting Liu, Xiaochao Qu et al.

CVPR 2025arXiv:2503.18629

#4355

Towards Human-Understandable Multi-Dimensional Concept Discovery

Arne Grobrügge, Niklas Kühl, Gerhard Satzger et al.

CVPR 2025arXiv:2503.01288

#4356

Reconciling Stochastic and Deterministic Strategies for Zero-shot Image Restoration using Diffusion Model in Dual

Chong Wang, Lanqing Guo, Zixuan Fu et al.

CVPR 2025arXiv:2506.02462

#4357

Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning

Kunyu Wang, Xueyang Fu, Xin Lu et al.

CVPR 2025arXiv:2503.01158

#4358

EasyCraft: A Robust and Efficient Framework for Automatic Avatar Crafting

Suzhen Wang, Weijie Chen, Wei Zhang et al.

#4359

HORP: Human-Object Relation Priors Guided HOI Detection

Pei Geng, Jian Yang, Shanshan Zhang

CVPR 2025arXiv:2506.09237

#4360

PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo Anomalies

Mojtaba Nafez, Amirhossein Koochakian, Arad Maleki et al.

#4361

Sound Bridge: Associating Egocentric and Exocentric Videos via Audio Cues

Sihong Huang, Jiaxin Wu, Xiaoyong Wei et al.

#4362

SynTab-LLaVA: Enhancing Multimodal Table Understanding with Decoupled Synthesis

Bangbang Zhou, Zuan Gao, Zixiao Wang et al.

CVPR 2025arXiv:2409.19601

#4363

Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning

Ye Li, Yanchao Zhao, chengcheng zhu et al.

#4364

Multi-Modal Synergistic Implicit Image Enhancement for Efficient Optical Flow Estimation

Weichen Dai, wu hexing, xiaoyang weng et al.

CVPR 2025arXiv:2412.18355

#4365

Handling Spatial-Temporal Data Heterogeneity for Federated Continual Learning via Tail Anchor

Hao Yu, Xin Yang, Le Zhang et al.

CVPR 2025arXiv:2504.09606

#4366

Early-Bird Diffusion: Investigating and Leveraging Timestep-Aware Early-Bird Tickets in Diffusion Models for Efficient Training

Lexington Whalen, Zhenbang Du, Haoran You et al.

CVPR 2025arXiv:2411.15210

#4367

Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks

Yong Xie, Weijie Zheng, Hanxun Huang et al.

CVPR 2025arXiv:2412.18609

#4368

Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

Jinhui Yi, Syed Talal Wasim, Yanan Luo et al.

CVPR 2025arXiv:2504.07853

#4369

V2V3D: View-to-View Denoised 3D Reconstruction for Light Field Microscopy

Jiayin Zhao, Zhenqi Fu, Tao Yu et al.

CVPR 2025arXiv:2503.08664

#4370

MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention

Yuhan Wang, Fangzhou Hong, Shuai Yang et al.

CVPR 2025arXiv:2503.18536

#4371

DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels

Erjian Guo, Zhen Zhao, Zicheng Wang et al.

CVPR 2025arXiv:2503.11465

#4372

Remote Photoplethysmography in Real-World and Extreme Lighting Scenarios

Hang Shao, lei luo, Jianjun Qian et al.

#4373

EntityErasure: Erasing Entity Cleanly via Amodal Entity Segmentation and Completion

Yixing Zhu, Qing Zhang, Yitong Wang et al.

CVPR 2025arXiv:2409.02482

#4374

Volumetric Surfaces: Representing Fuzzy Geometries with Layered Meshes

Stefano Esposito, Anpei Chen, Christian Reiser et al.

CVPR 2025arXiv:2503.21771

#4375

A Unified Image-Dense Annotation Generation Model for Underwater Scenes

Hongkai Lin, Dingkang Liang, Zhenghao Qi et al.

#4376

TSP-Mamba: The Travelling Salesman Problem Meets Mamba for Image Super-resolution and Beyond

Kun Zhou, Xinyu Lin, Jiangbo Lu

#4377

Adapting Dense Matching for Homography Estimation with Grid-based Acceleration

Kaining Zhang, Yuxin Deng, Jiayi Ma et al.

CVPR 2025arXiv:2412.00124

#4378

Auto-Encoded Supervision for Perceptual Image Super-Resolution

MinKyu Lee, Sangeek Hyun, Woojin Jun et al.

CVPR 2025arXiv:2505.24023

#4379

Multi-Group Proportional Representations for Text-to-Image Models

Sangwon Jung, Alex Oesterling, Claudio Mayrink Verdun et al.

CVPR 2025arXiv:2504.19514

#4380

FSBench: A Figure Skating Benchmark for Advancing Artistic Sports Understanding

Rong Gao, Xin Liu, Zhuozhao Hu et al.

CVPR 2025arXiv:2507.13753

#4381

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis

Tongtong Su, Chengyu Wang, Bingyan Liu et al.

#4382

Coherence As Texture – Passive Textureless 3D Reconstruction by Self-interference

Wei-Yu Chen, Aswin C. Sankaranarayanan, Anat Levin et al.

CVPR 2024highlight

#4383

Improving Visual and Downstream Performance of Low-Light Enhancer with Vision Foundation Models Collaboration

yuxuan Gu, Huaian Chen, Yi Jin et al.

#4384

Diffusion-based Event Generation for High-Quality Image Deblurring

Xinan Xie, Qing Zhang, Wei-Shi Zheng

CVPR 2024arXiv:2310.04041

#4385

Observation-Guided Diffusion Probabilistic Models

Junoh Kang, Jinyoung Choi, Sungik Choi et al.

CVPR 2025arXiv:2503.14832

#4386

H2ST: Hierarchical Two-Sample Tests for Continual Out-of-Distribution Detection

Yuhang Liu, Wenjie Zhao, Yunhui Guo

#4387

LLM-driven Multimodal and Multi-Identity Listening Head Generation

Peiwen Lai, Weizhi Zhong, Yipeng Qin et al.

CVPR 2025arXiv:2503.23747

#4388

Consistency-aware Self-Training for Iterative-based Stereo Matching

Jingyi Zhou, Peng Ye, Haoyu Zhang et al.

CVPR 2025arXiv:2503.13303

#4389

UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation

Yinqiao Wang, Hao Xu, Pheng-Ann Heng et al.

#4390

Incomplete Multi-modal Brain Tumor Segmentation via Learnable Sorting State Space Model

Zheyu Zhang, Yayuan Lu, Feipeng Ma et al.

CVPR 2025arXiv:2503.03115

#4391

NTR-Gaussian: Nighttime Dynamic Thermal Reconstruction with 4D Gaussian Splatting Based on Thermodynamics

Kun Yang, Yuxiang Liu, Zeyu Cui et al.

CVPR 2025highlightarXiv:2503.00643

#4392

Deep Change Monitoring: A Hyperbolic Representative Learning Framework and a Dataset for Long-term Fine-grained Tree Change Detection

Yante Li, Hanwen Qi, Haoyu Chen et al.

CVPR 2025arXiv:2505.01008

#4393

Where's the Liability in the Generative Era? Recovery-based Black-Box Detection of AI-Generated Content

Haoyue Bai, Yiyou Sun, Wei Cheng et al.

CVPR 2025arXiv:2503.12053

#4394

Ferret: An Efficient Online Continual Learning Framework under Varying Memory Constraints

Yuhao Zhou, Yuxin Tian, Jindi Lv et al.

CVPR 2025arXiv:2503.22138

#4395

Enhancing Dance-to-Music Generation via Negative Conditioning Latent Diffusion Model

Changchang Sun, Gaowen Liu, Charles Fleming et al.

CVPR 2025arXiv:2511.07974

#4396

Towards Fine-Grained Interpretability: Counterfactual Explanations for Misclassification with Saliency Partition

ZHANG LINTONG, Kang Yin, Seong-Whan Lee

CVPR 2025arXiv:2508.02004

#4397

Devil is in the Detail: Towards Injecting Fine Details of Image Prompt in Image Generation via Conflict-free Guidance and Stratified Attention

Kyungmin Jo, Jooyeol Yun, Jaegul Choo

CVPR 2025arXiv:2502.02163

#4398

Progressive Correspondence Regenerator for Robust 3D Registration

Guiyu Zhao, Sheng Ao, Ye Zhang et al.

CVPR 2024arXiv:2403.09050

#4399

CLOAF: CoLlisiOn-Aware Human Flow

Andrey Davydov, Martin Engilberge, Mathieu Salzmann et al.

CVPR 2025highlightarXiv:2504.01383

#4400

v-CLR: View-Consistent Learning for Open-World Instance Segmentation

Chang-Bin Zhang, Jinhong Ni, Yujie Zhong et al.