Most Cited CVPR &quot;interpretable neural networks&quot; Papers

#2402

ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting

Yizhe Tang, Zhimin Sun, Yuzhen Du et al.

CVPR 2025posterarXiv:2503.16825

#2403

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion

Xiyue Guo, Jiarui Hu, Junjie Hu et al.

CVPR 2025posterarXiv:2503.15300

#2404

SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes

Weixiao Gao, Liangliang Nan, Hugo Ledoux

CVPR 2025posterarXiv:2502.07782

#2405

A Flag Decomposition for Hierarchical Datasets

Nathan Mankovich, Ignacio Santamaria, Gustau Camps-Valls et al.

CVPR 2025posterarXiv:2502.19754

#2406

Finding Local Diffusion Schrödinger Bridge using Kolmogorov-Arnold Network

Xingyu Qiu, Mengying Yang, Xinghua Ma et al.

#2407

On the Out-Of-Distribution Generalization of Large Multimodal Models

Xingxuan Zhang, Jiansheng Li, Wenjing Chu et al.

CVPR 2025posterarXiv:2411.12773

#2408

Decoupling Training-Free Guided Diffusion by ADMM

Youyuan Zhang, Zehua Liu, Zenan Li et al.

CVPR 2025highlightarXiv:2411.13059

#2409

Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation

Rohith Peddi, Saurabh ., Ayush Abhay Shrivastava et al.

CVPR 2025posterarXiv:2501.09688

#2410

Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation

Jiho Choi, Seonho Lee, Minhyun Lee et al.

CVPR 2025posterarXiv:2503.15211

#2411

GO-N3RDet: Geometry Optimized NeRF-enhanced 3D Object Detector

Zechuan Li, Hongshan Yu, Yihao Ding et al.

CVPR 2025posterarXiv:2503.02593

#2412

CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework

Yanlong Xu, Haoxuan Qu, Jun Liu et al.

CVPR 2025highlightarXiv:2504.02697

#2413

Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation

Xingguang Zhang, Nicholas M Chimitt, Xijun Wang et al.

CVPR 2024posterarXiv:2405.18810

#2414

UniPTS: A Unified Framework for Proficient Post-Training Sparsity

JingJing Xie, Yuxin Zhang, Mingbao Lin et al.

CVPR 2025posterarXiv:2411.16761

#2415

Is `Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning

JiHyeok Jung, EunTae Kim, SeoYeon Kim et al.

CVPR 2025posterarXiv:2504.02775

#2416

TailedCore: Few-Shot Sampling for Unsupervised Long-Tail Noisy Anomaly Detection

Yoon Gyo Jung, Jaewoo Park, Jaeho Yoon et al.

#2417

Towards Efficient Foundation Model for Zero-shot Amodal Segmentation

Zhaochen Liu, Limeng Qiao, Xiangxiang Chu et al.

CVPR 2025posterarXiv:2411.19292

#2418

UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation

Yichong Lu, Yichi Cai, Shangzhan Zhang et al.

CVPR 2025posterarXiv:2504.20902

#2419

Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers

Quentin Guimard, Moreno D'Incà, Massimiliano Mancini et al.

CVPR 2025posterarXiv:2504.02522

#2420

Charm: The Missing Piece in ViT Fine-Tuning for Image Aesthetic Assessment

Fatemeh Behrad, Tinne Tuytelaars, Johan Wagemans

#2421

Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling

Yinuo Wang, Yanbo Fan, Xuan Wang et al.

CVPR 2025highlightarXiv:2503.02745

#2422

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points

Qirui Huang, Runze Zhang, Kangjun Liu et al.

CVPR 2025posterarXiv:2501.12216

#2423

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

Uri Gadot, Shie Mannor, Assaf Shocher et al.

CVPR 2025posterarXiv:2503.07597

#2424

HumanMM: Global Human Motion Recovery from Multi-shot Videos

Yuhong Zhang, Guanlin Wu, Ling-Hao Chen et al.

CVPR 2025posterarXiv:2411.19041

#2425

TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition

yilong wang, Zilin Gao, Qilong Wang et al.

CVPR 2025posterarXiv:2412.01160

#2426

ControlFace: Harnessing Facial Parametric Control for Face Rigging

Wooseok Jang, Youngjun Hong, Geonho Cha et al.

CVPR 2025highlightarXiv:2503.03265

#2427

Optimizing for the Shortest Path in Denoising Diffusion Model

Ping Chen, Xingpeng Zhang, Zhaoxiang Liu et al.

CVPR 2025highlightarXiv:2503.20779

#2428

PGC: Physics-Based Gaussian Cloth from a Single Pose

Michelle Guo, Matt Jen-Yuan Chiang, Igor Santesteban et al.

CVPR 2025highlightarXiv:2503.17142

#2429

Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models

Davide Berasi, Matteo Farina, Massimiliano Mancini et al.

CVPR 2025posterarXiv:2503.13385

#2430

Scale Efficient Training for Large Datasets

Qing Zhou, Junyu Gao, Qi Wang

#2431

GPAvatar: High-fidelity Head Avatars by Learning Efficient Gaussian Projections

Weiqi Feng, Dong Han, Zekang Zhou et al.

CVPR 2025posterarXiv:2503.23024

#2432

Empowering Large Language Models with 3D Situation Awareness

Zhihao Yuan, Yibo Peng, Jinke Ren et al.

#2433

PS-Diffusion: Photorealistic Subject-Driven Image Editing with Disentangled Control and Attention

Weicheng Wang, Guoli Jia, Zhongqi Zhang et al.

CVPR 2025posterarXiv:2412.04282

#2434

Learnable Infinite Taylor Gaussian for Dynamic View Rendering

Bingbing Hu, Yanyan Li, rui xie et al.

#2435

PolarMatte: Fully Computational Ground-Truth-Quality Alpha Matte Extraction for Images and Video using Polarized Screen Matting

Kenji Enomoto, TJ Rhodes, Brian Price et al.

CVPR 2024poster

CVPR 2024posterarXiv:2312.05264

#2436

All Rivers Run to the Sea: Private Learning with Asymmetric Flows

Yue Niu, Ramy E. Ali, Saurav Prakash et al.

CVPR 2024posterarXiv:2404.05558

#2437

JDEC: JPEG Decoding via Enhanced Continuous Cosine Coefficients

Woo Kyoung Han, Sunghoon Im, Jaedeok Kim et al.

CVPR 2025posterarXiv:2504.03011

#2438

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

Junying Wang, Jingyuan Liu, Xin Sun et al.

#2439

One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency

Li Jin, Yujie Wang, Wenzheng Chen et al.

#2440

Making Old Film Great Again: Degradation-aware State Space Model for Old Film Restoration

Yudong Mao, Hao Luo, Zhiwei Zhong et al.

#2441

Reproducible Vision-Language Models Meet Concepts Out of Pre-Training

Ziliang Chen, Xin Huang, Xiaoxuan Fan et al.

CVPR 2025posterarXiv:2503.08147

#2442

FilmComposer: LLM-Driven Music Production for Silent Film Clips

Zhifeng Xie, Qile He, Youjia Zhu et al.

CVPR 2025posterarXiv:2504.01428

#2443

MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image Translation

zhuangzhuang chen, hualiang wang, Chubin Ou et al.

#2444

Reconstruction-free Cascaded Adaptive Compressive Sensing

Chenxi Qiu, Tao Yue, Xuemei Hu

CVPR 2024poster

CVPR 2025posterarXiv:2211.09810

#2445

Tightening Robustness Verification of MaxPool-based Neural Networks via Minimizing the Over-Approximation Zone

Yuan Xiao, Yuchen Chen, Shiqing Ma et al.

CVPR 2024highlightarXiv:2405.18131

#2446

Self-Supervised Dual Contouring

Ramana Sundararaman, Roman Klokov, Maks Ovsjanikov

CVPR 2025highlightarXiv:2411.10504

#2447

USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting

Kang Chen, Jiyuan Zhang, Zecheng Hao et al.

CVPR 2025posterarXiv:2506.19488

#2448

SceneCrafter: Controllable Multi-View Driving Scene Editing

Zehao Zhu, Yuliang Zou, Chiyu “Max” Jiang et al.

CVPR 2025highlightarXiv:2503.20354

#2449

SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity

Ke Ma, Jiaqi Tang, Bin Guo et al.

CVPR 2025posterarXiv:2409.09318

#2450

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

Yahan Tu, Rui Hu, Jitao Sang

CVPR 2025posterarXiv:2503.21815

#2451

ATP: Adaptive Threshold Pruning for Efficient Data Encoding in Quantum Neural Networks

Mohamed Afane, Gabrielle Ebbrecht, Ying Wang et al.

CVPR 2025posterarXiv:2505.03116

#2452

TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion

Haoyue Liu, Jinghan Xu, Yi Chang et al.

#2453

A Hubness Perspective on Representation Learning for Graph-Based Multi-View Clustering

Zheming Xu, He Liu, Congyan Lang et al.

CVPR 2024posterarXiv:2312.07804

#2454

Uncertainty Visualization via Low-Dimensional Posterior Projections

Omer Yair, Tomer Michaeli, Elias Nehme

CVPR 2025posterarXiv:2503.17024

#2455

A Tale of Two Classes: Adapting Supervised Contrastive Learning to Binary Imbalanced Datasets

David Mildenberger, Paul Hager, Daniel Rueckert et al.

CVPR 2025posterarXiv:2410.05869

#2456

Believing is Seeing: Unobserved Object Detection using Generative Models

Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome

CVPR 2025posterarXiv:2503.16535

#2457

Vision-Language Embodiment for Monocular Depth Estimation

Jinchang Zhang, Guoyu Lu

CVPR 2025posterarXiv:2503.00746

#2458

DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting

Liao Shen, Tianqi Liu, Huiqiang Sun et al.

CVPR 2025posterarXiv:2505.18686

#2459

WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation

Silin Cheng, Yang Liu, Xinwei He et al.

CVPR 2024posterarXiv:2403.18144

#2460

Leak and Learn: An Attacker's Cookbook to Train Using Leaked Data from Federated Learning

Joshua C. Zhao, Ahaan Dabholkar, Atul Sharma et al.

#2461

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models

Dongnan Gui, Xun Guo, Wengang Zhou et al.

CVPR 2025posterarXiv:2505.05446

#2462

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding

Han Xiao, yina xie, Guanxin tan et al.

CVPR 2025highlightarXiv:2503.09487

#2463

Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness

Beier Zhu, Jiequan Cui, Hanwang Zhang et al.

CVPR 2025posterarXiv:2503.06237

#2464

Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection

Yifan Chang, Junjie Huang, Xiaofeng Wang et al.

CVPR 2025posterarXiv:2504.15118

#2465

Improving Sound Source Localization with Joint Slot Attention on Image and Audio

Inho Kim, YOUNGKIL SONG, Jicheol Park et al.

#2466

EntityErasure: Erasing Entity Cleanly via Amodal Entity Segmentation and Completion

Yixing Zhu, Qing Zhang, Yitong Wang et al.

CVPR 2025posterarXiv:2504.03800

#2467

Decision SpikeFormer: Spike-Driven Transformer for Decision Making

Wei Huang, Qinying Gu, Nanyang Ye

CVPR 2025posterarXiv:2409.19601

#2468

Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning

Ye Li, Yanchao Zhao, chengcheng zhu et al.

CVPR 2024posterarXiv:2404.13103

#2469

ToNNO: Tomographic Reconstruction of a Neural Network’s Output for Weakly Supervised Segmentation of 3D Medical Images

Marius Schmidt-Mengin, Alexis Benichoux, Shibeshih Belachew et al.

CVPR 2025posterarXiv:2504.04085

#2470

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Xiao-Hui Li, Fei Yin, Cheng-Lin Liu

#2471

BOE-ViT: Boosting Orientation Estimation with Equivariance in Self-Supervised 3D Subtomogram Alignment

Runmin Jiang, Jackson Daggett, Shriya Pingulkar et al.

#2472

HORP: Human-Object Relation Priors Guided HOI Detection

Pei Geng, Jian Yang, Shanshan Zhang

#2473

RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling Scheduler

Xin Ding, Lei Yu, Xin Li et al.

#2474

Perceptual Video Compression with Neural Wrapping

Muhammad Umar Karim Khan, Aaron Chadha, Mohammad Ashraful Anam et al.

CVPR 2025posterarXiv:2508.02004

#2475

Devil is in the Detail: Towards Injecting Fine Details of Image Prompt in Image Generation via Conflict-free Guidance and Stratified Attention

Kyungmin Jo, Jooyeol Yun, Jaegul Choo

CVPR 2025posterarXiv:2503.03519

#2476

Do ImageNet-trained Models Learn Shortcuts? The Impact of Frequency Shortcuts on Generalization

Shunxin Wang, Raymond Veldhuis, Nicola Strisciuglio

#2477

Pre-training Vision Models with Mandelbulb Variations

Benjamin N. Chiche, Yuto Horikawa, Ryo Fujita

CVPR 2024poster

#2478

VISTREAM: Improving Computation Efficiency of Visual Streaming Perception via Law-of-Charge-Conservation Inspired Spiking Neural Network

Kang You, Ziling Wei, Jing Yan et al.

CVPR 2025highlightarXiv:2503.01214

#2479

One-Step Event-Driven High-Speed Autofocus

Yuhan Bao, Shaohua Gao, Wenyong Li et al.

#2480

DTOS: Dynamic Time Object Sensing with Large Multimodal Model

Jirui Tian, Jinrong Zhang, Shenglan Liu et al.

#2481

TexGarment: Consistent Garment UV Texture Generation via Efficient 3D Structure-Guided Diffusion Transformer

Jialun Liu, Jinbo Wu, Xiaobo Gao et al.

CVPR 2025posterarXiv:2503.22138

#2482

Enhancing Dance-to-Music Generation via Negative Conditioning Latent Diffusion Model

Changchang Sun, Gaowen Liu, Charles Fleming et al.

CVPR 2025posterarXiv:2412.00124

#2483

Auto-Encoded Supervision for Perceptual Image Super-Resolution

MinKyu Lee, Sangeek Hyun, Woojin Jun et al.

CVPR 2025posterarXiv:2409.19425

#2484

Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment

Mayug Maniparambil, Raiymbek Akshulakov, YASSER ABDELAZIZ DAHOU DJILALI et al.

CVPR 2025posterarXiv:2504.09606

#2485

Early-Bird Diffusion: Investigating and Leveraging Timestep-Aware Early-Bird Tickets in Diffusion Models for Efficient Training

Lexington Whalen, Zhenbang Du, Haoran You et al.

CVPR 2025posterarXiv:2405.16226

#2486

Detecting Adversarial Data Using Perturbation Forgery

Qian Wang, Chen Li, Yuchen Luo et al.

CVPR 2025posterarXiv:2411.16129

#2487

Three Cars Approaching within 100m! Enhancing Distant Geometry by Tri-Axis Voxel Scanning for Camera-based Semantic Scene Completion

Jongseong Bae, Junwoo Ha, Ha Young Kim

#2488

Incomplete Multi-modal Brain Tumor Segmentation via Learnable Sorting State Space Model

Zheyu Zhang, Yayuan Lu, Feipeng Ma et al.

CVPR 2025posterarXiv:2503.08422

#2489

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

Runjian Chen, Wenqi Shao, Bo Zhang et al.

#2490

DynaMoDe-NeRF: Motion-aware Deblurring Neural Radiance Field for Dynamic Scenes

Ashish Kumar, A. N. Rajagopalan

CVPR 2025posterarXiv:2503.22163

#2491

T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-Incremental Learning

Seong-Hyeon Hwang, Minsu Kim, Steven Euijong Whang

CVPR 2025posterarXiv:2503.15234

#2492

CoE: Chain-of-Explanation via Automatic Visual Concept Circuit Description and Polysemanticity Quantification

wenlong yu, Qilong Wang, Chuang Liu et al.

CVPR 2024posterarXiv:2311.10339

#2493

A2XP: Towards Private Domain Generalization

Geunhyeok Yu, Hyoseok Hwang

#2494

Rethinking Correspondence-based Category-Level Object Pose Estimation

Huan Ren, Wenfei Yang, Shifeng Zhang et al.

CVPR 2025posterarXiv:2502.02163

#2495

Progressive Correspondence Regenerator for Robust 3D Registration

Guiyu Zhao, Sheng Ao, Ye Zhang et al.

CVPR 2025posterarXiv:2408.08568

#2496

DV-Matcher: Deformation-based Non-rigid Point Cloud Matching Guided by Pre-trained Visual Features

Zhangquan Chen, Puhua Jiang, Ruqi Huang

CVPR 2025highlightarXiv:2503.00605

#2497

GenVDM: Generating Vector Displacement Maps From a Single Image

Yuezhi Yang, Qimin Chen, Vladimir G. Kim et al.

#2498

Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation

Chenggong Ni, Fan Lyu, Jiayao Tan et al.

CVPR 2025posterarXiv:2411.16185

#2499

Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation

Qiao Yu, Xianzhi Li, Yuan Tang et al.

CVPR 2025posterarXiv:2410.04364

#2500

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

Dohun Lee, Bryan Sangwoo Kim, Geon Yeong Park et al.

#2501

Multi-Modal Synergistic Implicit Image Enhancement for Efficient Optical Flow Estimation

Weichen Dai, wu hexing, xiaoyang weng et al.

CVPR 2025posterarXiv:2505.01237

#2502

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

Edson Araujo, Andrew Rouditchenko, Yuan Gong et al.

CVPR 2025highlightarXiv:2503.19592

#2503

SACB-Net: Spatial-awareness Convolutions for Medical Image Registration

Xinxing Cheng, Tianyang Zhang, Wenqi Lu et al.

CVPR 2025posterarXiv:2506.02893

#2504

Dense Match Summarization for Faster Two-view Estimation

Jonathan Astermark, Anders Heyden, Viktor Larsson

CVPR 2025posterarXiv:2503.18371

#2505

Do Your Best and Get Enough Rest for Continual Learning

Hankyul Kang, Gregor Seifer, Donghyun Lee et al.

CVPR 2025posterarXiv:2507.13753

#2506

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis

Tongtong Su, Chengyu Wang, Bingyan Liu et al.

#2507

High-Fidelity Lightweight Mesh Reconstruction from Point Clouds

Chen Zhang, Wentao Wang, Ximeng Li et al.

CVPR 2025highlightarXiv:2412.16604

#2508

OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable Capabilities

Suyoung Lee, JAEYOUNG CHUNG, Kihoon Kim et al.

CVPR 2025highlightarXiv:2506.07087

#2509

UCOD-DPL: Unsupervised Camouflaged Object Detection via Dynamic Pseudo-label Learning

Weiqi Yan, Lvhai Chen, Huaijia Kou et al.

#2510

SEC-Prompt:SEmantic Complementary Prompting for Few-Shot Class-Incremental Learning

Ye Liu, Meng Yang

CVPR 2025posterarXiv:2503.00359

#2511

Solving Instance Detection from an Open-World Perspective

Qianqian Shen, Yunhan Zhao, Nahyun Kwon et al.

CVPR 2025posterarXiv:2411.16773

#2512

MICAS: Multi-grained In-Context Adaptive Sampling for 3D Point Cloud Processing

Feifei Shao, Ping Liu, Zhao Wang et al.

CVPR 2025highlightarXiv:2503.05936

#2513

CASP: Compression of Large Multimodal Models Based on Attention Sparsity

Mohsen Gholami, Mohammad Akbari, Kevin Cannons et al.

CVPR 2025highlightarXiv:2503.06467

#2514

SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts

Shijia Zhao, Qiming Xia, Xusheng Guo et al.

CVPR 2025posterarXiv:2403.13778

#2515

Certified Human Trajectory Prediction

Mohammadhossein Bahari, Saeed Saadatnejad, Amirhossein Askari Farsangi et al.

CVPR 2025posterarXiv:2506.05175

#2516

Track Any Anomalous Object:A Granular Video Anomaly Detection Pipeline

Yuzhi Huang, Chenxin Li, Haitao Zhang et al.

CVPR 2025posterarXiv:2506.04174

#2517

FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting

Hengyu Liu, Yuehao Wang, Chenxin Li et al.

CVPR 2025posterarXiv:2502.21201

#2518

The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition

Otto Brookes, Maksim Kukushkin, Majid Mirmehdi et al.

CVPR 2025posterarXiv:2503.20321

#2519

Recovering Dynamic 3D Sketches from Videos

Jaeah Lee, Changwoon Choi, Young Min Kim et al.

CVPR 2025posterarXiv:2504.11295

#2520

Autoregressive Distillation of Diffusion Transformers

Yeongmin Kim, Sotiris Anagnostidis, Yuming Du et al.

CVPR 2025posterarXiv:2505.20764

#2521

ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval

Eric Xing, Pranavi Kolouju, Robert Pless et al.

CVPR 2025posterarXiv:2503.24282

#2522

Style Quantization for Data-Efficient GAN Training

Jian Wang, Xin Lan, Ji-Zhe Zhou et al.

#2523

Point Cloud Upsampling Using Conditional Diffusion Module with Adaptive Noise Suppression

Boqian Zhang, shen yang, Hao Chen et al.

CVPR 2025posterarXiv:2506.03148

#2524

Self-Supervised Spatial Correspondence Across Modalities

Ayush Shrivastava, Andrew Owens

CVPR 2025highlightarXiv:2502.20161

#2525

Balanced Rate-Distortion Optimization in Learned Image Compression

Yichi Zhang, Zhihao Duan, Yuning Huang et al.

CVPR 2025posterarXiv:2503.14941

#2526

UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation

Qihui Zhang, Munan Ning, Zheyuan Liu et al.

CVPR 2024posterarXiv:2404.03138

#2527

Discontinuity-preserving Normal Integration with Auxiliary Edges

Hyomin Kim, Yucheol Jung, Seungyong Lee

#2528

Rethinking Token Reduction with Parameter-Efficient Fine-Tuning in ViT for Pixel-Level Tasks

Cheng Lei, Ao Li, Hu Yao et al.

#2529

Enhancing Adversarial Transferability with Checkpoints of a Single Model’s Training

Shixin Li, Chaoxiang He, Xiaojing Ma et al.

CVPR 2025posterarXiv:2506.01591

#2530

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

Yuan Gan, Jiaxu Miao, Yunze Wang et al.

#2531

Unsupervised Continual Domain Shift Learning with Multi-Prototype Modeling

Haopeng Sun, Yingwei Zhang, Lumin Xu et al.

CVPR 2025posterarXiv:2412.06295

#2532

See Further When Clear: Curriculum Consistency Model

Yunpeng Liu, Boxiao Liu, Yi Zhang et al.

CVPR 2025posterarXiv:2504.02862

#2533

Towards Understanding How Knowledge Evolves in Large Vision-Language Models

Sudong Wang, Yunjian Zhang, Yao Zhu et al.

#2534

GBC-Splat: Generalizable Gaussian-Based Clothed Human Digitalization under Sparse RGB Cameras

Hanzhang Tu, Zhanfeng Liao, Boyao Zhou et al.

CVPR 2025highlightarXiv:2503.20101

#2535

EBS-EKF: Accurate and High Frequency Event-based Star Tracking

Albert Reed, Connor Hashemi, Dennis Melamed et al.

CVPR 2025highlightarXiv:2504.02823

#2536

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

Divya Velayudhan, Abdelfatah Ahmed, Mohamad Alansari et al.

CVPR 2025posterarXiv:2505.08255

#2537

Where the Devil Hides: Deepfake Detectors Can No Longer Be Trusted

Shuaiwei Yuan, Junyu Dong, Yuezun Li

CVPR 2025posterarXiv:2504.19514

#2538

FSBench: A Figure Skating Benchmark for Advancing Artistic Sports Understanding

Rong Gao, Xin Liu, Zhuozhao Hu et al.

CVPR 2025posterarXiv:2412.11365

#2539

BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform Motions

Wonyong Seo, Jihyong Oh, Munchurl Kim

CVPR 2025posterarXiv:2503.21003

#2540

Forensic Self-Descriptions Are All You Need for Zero-Shot Detection, Open-Set Source Attribution, and Clustering of AI-generated Images

Tai Nguyen, Aref Azizpour, Matthew Stamm

CVPR 2025posterarXiv:2503.22462

#2541

SemAlign3D: Semantic Correspondence between RGB-Images through Aligning 3D Object-Class Representations

Krispin Wandel, Hesheng Wang

CVPR 2025posterarXiv:2502.06682

#2542

Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene

Tai-Yu Daniel Pan, Sooyoung Jeon, Mengdi Fan et al.

CVPR 2025posterarXiv:2402.08784

#2543

Preconditioners for the Stochastic Training of Neural Fields

Shin-Fang Chng, Hemanth Saratchandran, Simon Lucey

CVPR 2025posterarXiv:2412.18355

#2544

Handling Spatial-Temporal Data Heterogeneity for Federated Continual Learning via Tail Anchor

Hao Yu, Xin Yang, Le Zhang et al.

#2545

PhyS-EdiT: Physics-aware Semantic Image Editing with Text Description

Ziqi Cai, Shuchen Weng, Yifei Xia et al.

#2546

Hand-held Object Reconstruction from RGB Video with Dynamic Interaction

Shijian Jiang, Qi Ye, Rengan Xie et al.

CVPR 2025posterarXiv:2412.06184

#2547

Evaluating Model Perception of Color Illusions in Photorealistic Scenes

Lingjun Mao, Zineng Tang, Alane Suhr

#2548

SynTab-LLaVA: Enhancing Multimodal Table Understanding with Decoupled Synthesis

Bangbang Zhou, Zuan Gao, Zixiao Wang et al.

CVPR 2025posterarXiv:2508.15127

#2549

Towards Source-Free Machine Unlearning

Sk Miraj Ahmed, Umit Basaran, Dripta S. Raychaudhuri et al.

CVPR 2025posterarXiv:2411.15210

#2550

Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks

Yong Xie, Weijie Zheng, Hanxun Huang et al.

CVPR 2025posterarXiv:2408.11535

#2551

SAM-REF: Introducing Image-Prompt Synergy during Interaction for Detail Enhancement in the Segment Anything Model

Chongkai Yu, Ting Liu, Li Anqi et al.

#2552

Sound Bridge: Associating Egocentric and Exocentric Videos via Audio Cues

Sihong Huang, Jiaxin Wu, Xiaoyong Wei et al.

#2553

DiffCAM: Data-Driven Saliency Maps by Capturing Feature Differences

Xingjian Li, Qiming Zhao, Neelesh Bisht et al.

CVPR 2025posterarXiv:2504.00380

#2554

Hierarchical Flow Diffusion for Efficient Frame Interpolation

Yang Hai, Guo Wang, Tan Su et al.

CVPR 2024posterarXiv:2310.04041

#2555

Observation-Guided Diffusion Probabilistic Models

Junoh Kang, Jinyoung Choi, Sungik Choi et al.

CVPR 2025posterarXiv:2503.18629

#2556

Towards Human-Understandable Multi-Dimensional Concept Discovery

Arne Grobrügge, Niklas Kühl, Gerhard Satzger et al.

CVPR 2025posterarXiv:2505.17475

#2557

PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation

Uyoung Jeong, Jonathan Freer, Seungryul Baek et al.

CVPR 2024posterarXiv:2404.15707

#2558

ESR-NeRF: Emissive Source Reconstruction Using LDR Multi-view Images

Jinseo Jeong, Junseo Koo, Qimeng Zhang et al.

CVPR 2025posterarXiv:2503.21694

#2559

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

Zhiyuan Ma, Xinyue Liang, Rongyuan Wu et al.

CVPR 2025posterarXiv:2411.15224

#2560

Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation

Seokil Ham, Hee-Seon Kim, Sangmin Woo et al.

CVPR 2025posterarXiv:2506.15720

#2561

Tripartite Weight-Space Ensemble for Few-Shot Class-Incremental Learning

Juntae Lee, Munawar Hayat, Sungrack Yun

CVPR 2025posterarXiv:2506.05890

#2562

Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media Manipulation

Yiheng Li, Yang Yang, Zichang Tan et al.

CVPR 2025posterarXiv:2504.06752

#2563

Compass Control: Multi Object Orientation Control for Text-to-Image Generation

Rishubh Parihar, Vaibhav Agrawal, Sachidanand VS et al.

#2564

Watermarking One for All: A Robust Watermarking Scheme Against Partial Image Theft

Gaozhi Liu, Silu Cao, Zhenxing Qian et al.

CVPR 2025posterarXiv:2503.19295

#2565

Exploring Semantic Feature Discrimination for Perceptual Image Super-Resolution and Opinion-Unaware No-Reference Image Quality Assessment

Guanglu Dong, Xiangyu Liao, Mingyang Li et al.

#2566

Diffusion-based Event Generation for High-Quality Image Deblurring

Xinan Xie, Qing Zhang, Wei-Shi Zheng

CVPR 2025posterarXiv:2503.21772

#2567

LOCORE: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao, Pavel Suma, Ayush Sachdeva et al.

CVPR 2025posterarXiv:2503.12535

#2568

SPC-GS: Gaussian Splatting with Semantic-Prompt Consistency for Indoor Open-World Free-view Synthesis from Sparse Inputs

Guibiao Liao, Qing Li, Zhenyu Bao et al.

#2569

Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding

Yuxuan Wang, Aming Wu, Muli Yang et al.

#2570

Deep Fair Multi-View Clustering with Attention KAN

HaiMing Xu, Qianqian Wang, Boyue Wang et al.

#2571

Coherence As Texture – Passive Textureless 3D Reconstruction by Self-interference

Wei-Yu Chen, Aswin C. Sankaranarayanan, Anat Levin et al.

CVPR 2024highlight

#2572

Distinguish Then Exploit: Source-free Open Set Domain Adaptation via Weight Barcode Estimation and Sparse Label Assignment

Weiming Liu, Jun Dan, Fan Wang et al.

CVPR 2025posterarXiv:2503.05283

#2573

Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces

Souhail Hadgi, Luca Moschella, Andrea Santilli et al.

#2574

Boosting the Dual-Stream Architecture in Ultra-High Resolution Segmentation with Resolution-Biased Uncertainty Estimation

Rong Qin, Xingyu Liu, Jinglei Shi et al.

#2575

LC-Mamba: Local and Continuous Mamba with Shifted Windows for Frame Interpolation

Min Wu Jeong, Chae Eun Rhee

CVPR 2025posterarXiv:2503.13739

#2576

Learning from Synchronization: Self-Supervised Uncalibrated Multi-View Person Association in Challenging Scenes

Keqi Chen, vinkle srivastav, Didier MUTTER et al.

#2577

Overcoming Shortcut Problem in VLM for Robust Out-of-Distribution Detection

Zhuo Xu, Xiang Xiang, Yifan Liang

CVPR 2025posterarXiv:2503.23606

#2578

Blurry-Edges: Photon-Limited Depth Estimation from Defocused Boundaries

Wei Xu, Charlie Wagner, Junjie Luo et al.

CVPR 2025posterarXiv:2503.12855

#2579

VITED: Video Temporal Evidence Distillation

Yujie Lu, Yale Song, Lorenzo Torresani et al.

CVPR 2025posterarXiv:2503.17814

#2580

LightLoc: Learning Outdoor LiDAR Localization at Light Speed

Wen Li, Chen Liu, Shangshu Yu et al.

#2581

KMD: Koopman Multi-modality Decomposition for Generalized Brain Tumor Segmentation under Incomplete Modalities

Tianyi Liu, Haochuan Jiang, Kaizhu Huang

CVPR 2025posterarXiv:2406.09126

#2582

3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation

Weijie Wei, Osman Ülger, Fatemeh Karimi Nejadasl et al.

CVPR 2025posterarXiv:2406.11643

#2583

CustAny: Customizing Anything from A Single Example

Lingjie Kong, Kai WU, Chengming Xu et al.

#2584

Test-Time Fine-Tuning of Image Compression Models for Multi-Task Adaptability

Unki Park, Seongmoon Jeong, Jang Youngchan et al.

#2585

Robust Multi-Object 4D Generation for In-the-wild Videos

Wen-Hsuan Chu, Lei Ke, Jianmeng Liu et al.

CVPR 2025posterarXiv:2412.08859

#2586

ViUniT: Visual Unit Tests for More Robust Visual Programming

Artemis Panagopoulou, Honglu Zhou, silvio savarese et al.

#2587

DH-Set: Improving Vision-Language Alignment with Diverse and Hybrid Set-Embeddings Learning

Kun Zhang, Jingyu Li, Zhe Li et al.

#2588

EAP-GS: Efficient Augmentation of Pointcloud for 3D Gaussian Splatting in Few-shot Scene Reconstruction

Dongrui Dai, Yuxiang Xing

CVPR 2025posterarXiv:2503.08429

#2589

Using Powerful Prior Knowledge of Diffusion Model in Deep Unfolding Networks for Image Compressive Sensing

Chen Liao, Yan Shen, Dan Li et al.

CVPR 2025posterarXiv:2411.15265

#2590

Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAI

Won Jun Kim, Hyungjin Chung, Jaemin Kim et al.

CVPR 2025posterarXiv:2503.17197

#2591

FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly Inference Strategy

Xingchao Yang, Takafumi Taketomi, Yuki Endo et al.

CVPR 2025posterarXiv:2411.15648

#2592

Sample- and Parameter-Efficient Auto-Regressive Image Models

Elad Amrani, Leonid Karlinsky, Alex M. Bronstein

CVPR 2025posterarXiv:2503.06746

#2593

Color Alignment in Diffusion

Ka Chun SHUM, Binh-Son Hua, Thanh Nguyen et al.

CVPR 2025posterarXiv:2411.17332

#2594

On the Generalization of Handwritten Text Recognition Models

Carlos Garrido-Munoz, Jorge Calvo-Zaragoza

CVPR 2025highlightarXiv:2503.19207

#2595

FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

Rong Wang, Fabian Prada, Ziyan Wang et al.

CVPR 2025highlightarXiv:2503.18578

#2596

Galaxy Walker: Geometry-aware VLMs For Galaxy-scale Understanding

Tianyu Chen, Xingcheng Fu, Yisen Gao et al.

CVPR 2025posterarXiv:2503.13693

#2597

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

Eitan Shaar, Ariel Shaulov, Gal Chechik et al.

CVPR 2025posterarXiv:2503.18010

#2598

Finsler Multi-Dimensional Scaling: Manifold Learning for Asymmetric Dimensionality Reduction and Embedding

Thomas Dagès, Simon Weber, Ya-Wei Eileen Lin et al.

CVPR 2025posterarXiv:2506.07996

#2599

UA-Pose: Uncertainty-Aware 6D Object Pose Estimation and Online Object Completion with Partial References

Ming-Feng Li, Xin Yang, Fu-En Wang et al.

CVPR 2025posterarXiv:2503.08352

#2600

Mitigating Ambiguities in 3D Classification with Gaussian Splatting

Ruiqi Zhang, Hao Zhu, Jingyi Zhao et al.