Most Cited CVPR &quot;diagram analysis&quot; Papers

CVPR 2025highlightarXiv:2503.08306

#2402

Reasoning in Visual Navigation of End-to-end Trained Agents: A Dynamical Systems Approach

Steeven JANNY, Hervé Poirier, Leonid Antsfeld et al.

CVPR 2025posterarXiv:2505.13788

#2403

Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels

Yongshuo Zong, Qin ZHANG, DONGSHENG An et al.

CVPR 2025posterarXiv:2506.05890

#2404

Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media Manipulation

Yiheng Li, Yang Yang, Zichang Tan et al.

#2405

GG-SSMs: Graph-Generating State Space Models

Nikola Zubic, Davide Scaramuzza

CVPR 2025posterarXiv:2403.09055

#2406

SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models

Jaerin Lee, Daniel Jung, Kanggeon Lee et al.

CVPR 2025posterarXiv:2506.10286

#2407

HalLoc: Token-level Localization of Hallucinations for Vision Language Models

Eunkyu Park, Minyeong Kim, Gunhee Kim

#2408

ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting

Yizhe Tang, Zhimin Sun, Yuzhen Du et al.

CVPR 2025posterarXiv:2505.20941

#2409

PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter

Yaohua Zha, Yanzi Wang, Hang Guo et al.

#2410

PolarMatte: Fully Computational Ground-Truth-Quality Alpha Matte Extraction for Images and Video using Polarized Screen Matting

Kenji Enomoto, TJ Rhodes, Brian Price et al.

#2411

4D-Fly: Fast 4D Reconstruction from a Single Monocular Video

Diankun Wu, Fangfu Liu, Yi-Hsin Hung et al.

CVPR 2025posterarXiv:2503.19897

#2412

Scaling Down Text Encoders of Text-to-Image Diffusion Models

Lifu Wang, Daqing Liu, Xinchen Liu et al.

CVPR 2024posterarXiv:2404.05558

#2413

JDEC: JPEG Decoding via Enhanced Continuous Cosine Coefficients

Woo Kyoung Han, Sunghoon Im, Jaedeok Kim et al.

#2414

Simpler Diffusion: 1.5 FID on ImageNet512 with Pixel-space Diffusion

Emiel Hoogeboom, Thomas Mensink, Jonathan Heek et al.

#2415

FFR: Frequency Feature Rectification for Weakly Supervised Semantic Segmentation

Ziqian Yang, Xinqiao Zhao, Xiaolei Wang et al.

#2416

Action Detail Matters: Refining Video Recognition with Local Action Queries

Mengmeng Wang, Zeyi Huang, Xiangjie Kong et al.

#2417

From Laboratory to Real World: A New Benchmark Towards Privacy-Preserved Visible-Infrared Person Re-Identification

Yan Jiang, Hao Yu, Xu Cheng et al.

CVPR 2025posterarXiv:2411.16760

#2418

LibraGrad: Balancing Gradient Flow for Universally Better Vision Transformer Attributions

Faridoun Mehri, Mahdieh Baghshah, Mohammad Taher Pilehvar

CVPR 2024highlightarXiv:2505.22850

#2419

Referring Expression Counting

Siyang Dai, Jun Liu, Ngai-Man Cheung

#2420

DFM: Differentiable Feature Matching for Anomaly Detection

Wu Sheng, Yimi Wang, Xudong Liu et al.

CVPR 2025posterarXiv:2506.07857

#2421

LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point Clouds

Zihui Zhang, Weisheng Dai, Hongtao Wen et al.

CVPR 2024posterarXiv:2405.18810

#2422

UniPTS: A Unified Framework for Proficient Post-Training Sparsity

JingJing Xie, Yuxin Zhang, Mingbao Lin et al.

CVPR 2025posterarXiv:2412.03178

#2423

Towards Understanding and Quantifying Uncertainty for Text-to-Image Generation

Gianni Franchi, Nacim Belkhir, Dat NGUYEN et al.

CVPR 2025posterarXiv:2412.19853

#2424

Conditional Balance: Improving Multi-Conditioning Trade-Offs in Image Generation

Nadav Z. Cohen, Oron Nir, Ariel Shamir

CVPR 2025posterarXiv:2411.17332

#2425

On the Generalization of Handwritten Text Recognition Models

Carlos Garrido-Munoz, Jorge Calvo-Zaragoza

CVPR 2025posterarXiv:2503.04829

#2426

StickMotion: Generating 3D Human Motions by Drawing a Stickman

Tao Wang, Zhihua Wu, Qiaozhi He et al.

CVPR 2025posterarXiv:2505.19799

#2427

A Regularization-Guided Equivariant Approach for Image Restoration

Yulu Bai, Jiahong Fu, Qi Xie et al.

CVPR 2025posterarXiv:2312.06085

#2428

SFDM: Robust Decomposition of Geometry and Reflectance for Realistic Face Rendering from Sparse-view Images

Daisheng Jin, Jiangbei Hu, Baixin Xu et al.

CVPR 2025posterarXiv:2503.18010

#2429

Finsler Multi-Dimensional Scaling: Manifold Learning for Asymmetric Dimensionality Reduction and Embedding

Thomas Dagès, Simon Weber, Ya-Wei Eileen Lin et al.

CVPR 2025posterarXiv:2503.15851

#2430

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Zhenglin Zhou, Fan Ma, Hehe Fan et al.

CVPR 2025posterarXiv:2506.05934

#2431

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing

Yixuan Zhu, Haolin Wang, Shilin Ma et al.

#2432

EvDiG: Event-guided Direct and Global Components Separation

xinyu zhou, Peiqi Duan, Boyu Li et al.

#2433

A3: Few-shot Prompt Learning of Unlearnable Examples with Cross-Modal Adversarial Feature Alignment

Xuan Wang, Xitong Gao, Dongping Liao et al.

CVPR 2025posterarXiv:2412.01986

#2434

HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment

Armin Shafiee Sarvestani, Sheyang Tang, Zhou Wang

CVPR 2025posterarXiv:2503.08111

#2435

MaRI: Material Retrieval Integration across Domains

Jianhui Wang, Zhifei Yang, Yangfan He et al.

CVPR 2025posterarXiv:2503.16825

#2436

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion

Xiyue Guo, Jiarui Hu, Junjie Hu et al.

CVPR 2025posterarXiv:2411.16468

#2437

Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency

Yutong Wang, Jiajie Teng, Jiajiong Cao et al.

CVPR 2025posterarXiv:2503.16068

#2438

PoseTraj: Pose-Aware Trajectory Control in Video Diffusion

longbin ji, Lei Zhong, Pengfei Wei et al.

CVPR 2025posterarXiv:2503.07446

#2439

EigenGS Representation: From Eigenspace to Gaussian Image Space

LO-WEI TAI, Ching-En Ching En, Li et al.

#2440

IM-Zero: Instance-level Motion Controllable Video Generation in a Zero-shot Manner

Yuyang Huang, Yabo Chen, Li Ding et al.

#2441

Watermarking One for All: A Robust Watermarking Scheme Against Partial Image Theft

Gaozhi Liu, Silu Cao, Zhenxing Qian et al.

CVPR 2024posterarXiv:2406.02074

#2442

FaceCom: Towards High-fidelity 3D Facial Shape Completion via Optimization and Inpainting Guidance

Yinglong Li, Hongyu Wu, Wang et al.

CVPR 2025posterarXiv:2411.16761

#2443

Is `Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning

JiHyeok Jung, EunTae Kim, SeoYeon Kim et al.

CVPR 2025posterarXiv:2502.20924

#2444

Decoder Gradient Shield: Provable and High-Fidelity Prevention of Gradient-Based Box-Free Watermark Removal

Haonan An, Guang Hua, Zhengru Fang et al.

CVPR 2025posterarXiv:2503.13739

#2445

Learning from Synchronization: Self-Supervised Uncalibrated Multi-View Person Association in Challenging Scenes

Keqi Chen, vinkle srivastav, Didier MUTTER et al.

CVPR 2025posterarXiv:2411.12773

#2446

Decoupling Training-Free Guided Diffusion by ADMM

Youyuan Zhang, Zehua Liu, Zenan Li et al.

CVPR 2025posterarXiv:2503.02593

#2447

CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework

Yanlong Xu, Haoxuan Qu, Jun Liu et al.

CVPR 2025posterarXiv:2501.09688

#2448

Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation

Jiho Choi, Seonho Lee, Minhyun Lee et al.

CVPR 2025posterarXiv:2409.18733

#2449

Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval

Mankeerat Sidhu, Hetarth Chopra, Ansel Blume et al.

CVPR 2025posterarXiv:2504.20902

#2450

Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers

Quentin Guimard, Moreno D'Incà, Massimiliano Mancini et al.

CVPR 2025posterarXiv:2503.15686

#2451

Multi-focal Conditioned Latent Diffusion for Person Image Synthesis

Jiaqi Liu, Jichao Zhang, Paolo Rota et al.

#2452

Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling

Yinuo Wang, Yanbo Fan, Xuan Wang et al.

#2453

Zero-Shot Blind-spot Image Denoising via Implicit Neural Sampling

Yuhui Quan, Tianxiang Zheng, Zhiyuan Ma et al.

#2454

Previously on ... From Recaps to Story Summarization

Aditya Kumar Singh, Dhruv Srivastava, Makarand Tapaswi

CVPR 2024posterarXiv:2406.03625

#2455

Degrees of Freedom Matter: Inferring Dynamics from Point Trajectories

Yan Zhang, Sergey Prokudin, Marko Mihajlovic et al.

CVPR 2025posterarXiv:2504.02775

#2456

TailedCore: Few-Shot Sampling for Unsupervised Long-Tail Noisy Anomaly Detection

Yoon Gyo Jung, Jaewoo Park, Jaeho Yoon et al.

CVPR 2024highlightarXiv:2405.18131

#2457

Self-Supervised Dual Contouring

Ramana Sundararaman, Roman Klokov, Maks Ovsjanikov

#2458

DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Post-Capture Refocusing, Defocus Rendering and Blur Removal

Yujie Wang, Praneeth Chakravarthula, Baoquan Chen

CVPR 2025posterarXiv:2406.09126

#2459

3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation

Weijie Wei, Osman Ülger, Fatemeh Karimi Nejadasl et al.

CVPR 2025posterarXiv:2503.13385

#2460

Scale Efficient Training for Large Datasets

Qing Zhou, Junyu Gao, Qi Wang

CVPR 2025posterarXiv:2505.21591

#2461

Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning

Maosen Zhao, Pengtao Chen, Chong Yu et al.

CVPR 2025posterarXiv:2503.23024

#2462

Empowering Large Language Models with 3D Situation Awareness

Zhihao Yuan, Yibo Peng, Jinke Ren et al.

CVPR 2025posterarXiv:2412.04282

#2463

Learnable Infinite Taylor Gaussian for Dynamic View Rendering

Bingbing Hu, Yanyan Li, rui xie et al.

CVPR 2025highlightarXiv:2503.02745

#2464

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points

Qirui Huang, Runze Zhang, Kangjun Liu et al.

CVPR 2025posterarXiv:2406.02659

#2465

Reanimating Images using Neural Representations of Dynamic Stimuli

Jacob Yeung, Andrew Luo, Gabriel Sarch et al.

CVPR 2025posterarXiv:2502.11925

#2466

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs

Yi Fang, Bowen Jin, Jiacheng Shen et al.

CVPR 2025posterarXiv:2504.03011

#2467

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

Junying Wang, Jingyuan Liu, Xin Sun et al.

CVPR 2025highlightarXiv:2503.20779

#2468

PGC: Physics-Based Gaussian Cloth from a Single Pose

Michelle Guo, Matt Jen-Yuan Chiang, Igor Santesteban et al.

#2469

Making Old Film Great Again: Degradation-aware State Space Model for Old Film Restoration

Yudong Mao, Hao Luo, Zhiwei Zhong et al.

CVPR 2024posterarXiv:2404.14006

#2470

Distilled Datamodel with Reverse Gradient Matching

Jingwen Ye, Ruonan Yu, Songhua Liu et al.

CVPR 2025highlightarXiv:2411.08753

#2471

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos

Sagnik Majumder, Tushar Nagarajan, Ziad Al-Halah et al.

CVPR 2024highlightarXiv:2406.12121

#2472

TutteNet: Injective 3D Deformations by Composition of 2D Mesh Deformations

Bo Sun, Thibault Groueix, Chen Song et al.

CVPR 2025posterarXiv:2503.08147

#2473

FilmComposer: LLM-Driven Music Production for Silent Film Clips

Zhifeng Xie, Qile He, Youjia Zhu et al.

CVPR 2025posterarXiv:2504.01428

#2474

MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image Translation

zhuangzhuang chen, hualiang wang, Chubin Ou et al.

CVPR 2025posterarXiv:2411.18025

#2475

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

Jinneyong Kim, Seung-Hwan Baek

CVPR 2024posterarXiv:2306.13325

#2476

Differentiable Display Photometric Stereo

Seokjun Choi, Seungwoo Yoon, Giljoo Nam et al.

#2477

One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency

Li Jin, Yujie Wang, Wenzheng Chen et al.

#2478

Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute Recognition

Junyi Wu, Yan Huang, Min Gao et al.

#2479

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models

Dongnan Gui, Xun Guo, Wengang Zhou et al.

CVPR 2025posterarXiv:2506.19488

#2480

SceneCrafter: Controllable Multi-View Driving Scene Editing

Zehao Zhu, Yuliang Zou, Chiyu “Max” Jiang et al.

CVPR 2024posterarXiv:2506.14263

#2481

Towards Robust Learning to Optimize with Theoretical Guarantees

Qingyu Song, Wei Lin, Juncheng Wang et al.

CVPR 2025posterarXiv:2503.00746

#2482

DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting

Liao Shen, Tianqi Liu, Huiqiang Sun et al.

CVPR 2025highlightarXiv:2503.14359

#2483

ImViD: Immersive Volumetric Videos for Enhanced VR Engagement

Zhengxian Yang, Shi Pan, Shengqi Wang et al.

CVPR 2025posterarXiv:2411.19292

#2484

UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation

Yichong Lu, Yichi Cai, Shangzhan Zhang et al.

#2485

Supervising Sound Localization by In-the-wild Egomotion

Anna Min, Ziyang Chen, Hang Zhao et al.

#2486

Towards Consistent Multi-Task Learning: Unlocking the Potential of Task-Specific Parameters

Xiaohan Qin, Xiaoxing Wang, Junchi Yan

CVPR 2025posterarXiv:2503.08387

#2487

Recognition-Synergistic Scene Text Editing

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu et al.

CVPR 2025posterarXiv:2501.12216

#2488

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

Uri Gadot, Shie Mannor, Assaf Shocher et al.

CVPR 2025posterarXiv:2509.00649

#2489

MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation

Aviral Chharia, Wenbo Gou, Haoye Dong

CVPR 2025highlightarXiv:2411.13059

#2490

Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation

Rohith Peddi, Saurabh ., Ayush Abhay Shrivastava et al.

CVPR 2025posterarXiv:2503.07597

#2491

HumanMM: Global Human Motion Recovery from Multi-shot Videos

Yuhong Zhang, Guanlin Wu, Ling-Hao Chen et al.

CVPR 2025posterarXiv:2503.19824

#2492

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

Jiazhi Guan, Kaisiyuan Wang, Zhiliang Xu et al.

CVPR 2025posterarXiv:2412.19206

#2493

NADER: Neural Architecture Design via Multi-Agent Collaboration

Zekang Yang, Wang ZENG, Sheng Jin et al.

CVPR 2025posterarXiv:2502.07782

#2494

A Flag Decomposition for Hierarchical Datasets

Nathan Mankovich, Ignacio Santamaria, Gustau Camps-Valls et al.

CVPR 2024posterarXiv:2406.10935

#2495

Pick-or-Mix: Dynamic Channel Sampling for ConvNets

Ashish Kumar, Daneul Kim, Jaesik Park et al.

CVPR 2025posterarXiv:2503.12821

#2496

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Mingyang Song, Xiaoye Qu, Jiawei Zhou et al.

CVPR 2025posterarXiv:2407.01330

#2497

A Lightweight UDF Learning Framework for 3D Reconstruction Based on Local Shape Functions

Jiangbei Hu, Yanggeng Li, Fei Hou et al.

#2498

Face Forgery Video Detection via Temporal Forgery Cue Unraveling

Zonghui Guo, YingJie Liu, Jie Zhang et al.

CVPR 2025posterarXiv:2407.03314

#2499

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

Zhantao Yang, Ruili Feng, Keyu Yan et al.

CVPR 2025posterarXiv:2411.19041

#2500

TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition

yilong wang, Zilin Gao, Qilong Wang et al.

CVPR 2024posterarXiv:2403.10099

#2501

KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation

Ruida Zhang, Chenyangguang Zhang, Yan Di et al.

CVPR 2025posterarXiv:2503.22725

#2502

Uncertainty Weighted Gradients for Model Calibration

Jinxu Lin, Linwei Tao, Minjing Dong et al.

#2503

Identity-Clothing Similarity Modeling for Unsupervised Clothing Change Person Re-Identification

Zhiqi Pang, Junjie Wang, Lingling Zhao et al.

CVPR 2025posterarXiv:2504.08125

#2504

Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects

Shalini Maiti, Lourdes Agapito, Filippos Kokkinos

CVPR 2024posterarXiv:2401.04394

#2505

SonicVisionLM: Playing Sound with Vision Language Models

Zhifeng Xie, Shengye Yu, Qile He et al.

#2506

Sensitivity-Aware Efficient Fine-Tuning via Compact Dynamic-Rank Adaptation

Tianran Chen, Jiarui Chen, Baoquan Zhang et al.

#2507

Less Attention is More: Prompt Transformer for Generalized Category Discovery

Wei Zhang, Baopeng Zhang, Zhu Teng et al.

CVPR 2025posterarXiv:2505.16376

#2508

DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos

Zijia Lu, ASM Iftekhar, Gaurav Mittal et al.

#2509

FeedEdit: Text-Based Image Editing with Dynamic Feedback Regulation

Fengyi Fu, Lei Zhang, Mengqi Huang et al.

CVPR 2025highlightarXiv:2503.17142

#2510

Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models

Davide Berasi, Matteo Farina, Massimiliano Mancini et al.

CVPR 2025posterarXiv:2410.11374

#2511

Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing

Yoonjeon Kim, Soohyun Ryu, Yeonsung Jung et al.

#2512

BrepGiff: Lightweight Generation of Complex B-rep with 3D GAT Diffusion

Hao Guo, Xiaoshui Huang, Hao jiacheng et al.

CVPR 2025posterarXiv:2503.19776

#2513

Resilient Sensor Fusion Under Adverse Sensor Failures via Multi-Modal Expert Fusion

Konyul Park, Yecheol Kim, Daehun Kim et al.

#2514

PS-Diffusion: Photorealistic Subject-Driven Image Editing with Disentangled Control and Attention

Weicheng Wang, Guoli Jia, Zhongqi Zhang et al.

CVPR 2025posterarXiv:2406.05704

#2515

Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation

Xinhao Zhong, Hao Fang, Bin Chen et al.

#2516

DriveScape: High-Resolution Driving Video Generation by Multi-View Feature Fusion

Wei Wu, Xi Guo, Weixuan TANG et al.

#2517

Leveraging SD Map to Augment HD Map-based Trajectory Prediction

Zhiwei Dong, Ran Ding, Wei Li et al.

CVPR 2025posterarXiv:2503.15300

#2518

SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes

Weixiao Gao, Liangliang Nan, Hugo Ledoux

#2519

VODiff: Controlling Object Visibility Order in Text-to-Image Generation

Dong Liang, Jinyuan Jia, Yuhao Liu et al.

CVPR 2025highlightarXiv:2503.03265

#2520

Optimizing for the Shortest Path in Denoising Diffusion Model

Ping Chen, Xingpeng Zhang, Zhaoxiang Liu et al.

#2521

ICP: Immediate Compensation Pruning for Mid-to-high Sparsity

Xin Luo, Fu Xueming, Zihang Jiang et al.

#2522

Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection

Feng Yan, Xiaoheng Jiang, Yang Lu et al.

CVPR 2025posterarXiv:2410.05869

#2523

Believing is Seeing: Unobserved Object Detection using Generative Models

Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome

#2524

Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation

Jialai Wang, Yuxiao Wu, Weiye Xu et al.

#2525

In-distribution Public Data Synthesis with Diffusion Models for Differentially Private Image Classification

Jinseong Park, Yujin Choi, Jaewook Lee

#2526

GPAvatar: High-fidelity Head Avatars by Learning Efficient Gaussian Projections

Weiqi Feng, Dong Han, Zekang Zhou et al.

CVPR 2025posterarXiv:2505.23290

#2527

Wav2Sem: Plug-and-Play Audio Semantic Decoupling for 3D Speech-Driven Facial Animation

Hao Li, Ju Dai, Xin Zhao et al.

CVPR 2025posterarXiv:2504.02522

#2528

Charm: The Missing Piece in ViT Fine-Tuning for Image Aesthetic Assessment

Fatemeh Behrad, Tinne Tuytelaars, Johan Wagemans

CVPR 2025posterarXiv:2506.03737

#2529

ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices

Hao Yu, Tangyu Jiang, Shuning Jia et al.

CVPR 2025posterarXiv:2504.20468

#2530

Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception

Yuanchen Wu, Lu Zhang, Hang Yao et al.

#2531

UNICL-SAM: Uncertainty-Driven In-Context Segmentation with Part Prototype Discovery

Dianmo Sheng, Dongdong Chen, Zhentao Tan et al.

CVPR 2025posterarXiv:2503.00068

#2532

PI-HMR: Towards Robust In-bed Temporal Human Shape Reconstruction with Contact Pressure Sensing

Ziyu Wu, Yufan Xiong, Mengting Niu et al.

CVPR 2025posterarXiv:2502.21130

#2533

Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning

Jiuyang Dong, Junjun Jiang, Kui Jiang et al.

CVPR 2025posterarXiv:2505.03116

#2534

TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion

Haoyue Liu, Jinghan Xu, Yi Chang et al.

CVPR 2025posterarXiv:2502.19937

#2535

Image Referenced Sketch Colorization Based on Animation Creation Workflow

Dingkun Yan, Xinrui Wang, Zhuoru Li et al.

CVPR 2025posterarXiv:2503.19232

#2536

HoGS: Unified Near and Far Object Reconstruction via Homogeneous Gaussian Splatting

Xinpeng Liu, Zeyi Huang, Fumio Okura et al.

#2537

Parameterized Blur Kernel Prior Learning for Local Motion Deblurring

Zhenxuan Fang, Fangfang Wu, Tao Huang et al.

CVPR 2024posterarXiv:2312.05264

#2538

All Rivers Run to the Sea: Private Learning with Asymmetric Flows

Yue Niu, Ramy E. Ali, Saurav Prakash et al.

CVPR 2025posterarXiv:2506.03512

#2539

EDCFlow: Exploring Temporally Dense Difference Maps for Event-based Optical Flow Estimation

Daikun Liu, Lei Cheng, Teng Wang et al.

CVPR 2024posterarXiv:2405.02781

#2540

Instantaneous Perception of Moving Objects in 3D

Di Liu, Bingbing Zhuang, Dimitris N. Metaxas et al.

CVPR 2025posterarXiv:2503.10468

#2541

OODD: Test-time Out-of-Distribution Detection with Dynamic Dictionary

Yifeng Yang, Lin Zhu, Zewen Sun et al.

CVPR 2025posterarXiv:2404.00916

#2542

Gyro-based Neural Single Image Deblurring

Heemin Yang, Jaesung Rim, Seungyong Lee et al.

CVPR 2025posterarXiv:2505.16971

#2543

UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation

Himangi Mittal, Peiye Zhuang, Hsin-Ying Lee et al.

#2544

FedCALM: Conflict-aware Layer-wise Mitigation for Selective Aggregation in Deeper Personalized Federated Learning

Hao Zheng, Zhigang Hu, Boyu Wang et al.

CVPR 2025posterarXiv:2211.09810

#2545

Tightening Robustness Verification of MaxPool-based Neural Networks via Minimizing the Over-Approximation Zone

Yuan Xiao, Yuchen Chen, Shiqing Ma et al.

CVPR 2025highlightarXiv:2412.00932

#2546

FIction: 4D Future Interaction Prediction from Video

Kumar Ashutosh, Georgios Pavlakos, Kristen Grauman

CVPR 2025posterarXiv:2411.12817

#2547

What Makes a Good Dataset for Knowledge Distillation?

Logan Frank, Jim Davis

#2548

Six-CD: Benchmarking Concept Removals for Text-to-image Diffusion Models

Jie Ren, Kangrui Chen, Yingqian Cui et al.

CVPR 2025posterarXiv:2504.14860

#2549

Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer

Ziyi Liu, Yangcen Liu

CVPR 2025highlightarXiv:2502.20161

#2550

Balanced Rate-Distortion Optimization in Learned Image Compression

Yichi Zhang, Zhihao Duan, Yuning Huang et al.

CVPR 2025posterarXiv:2506.01591

#2551

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

Yuan Gan, Jiaxu Miao, Yunze Wang et al.

CVPR 2025posterarXiv:2405.16226

#2552

Detecting Adversarial Data Using Perturbation Forgery

Qian Wang, Chen Li, Yuchen Luo et al.

#2553

Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes for Visual Question Answering

Wenlong Fang, Qiaofeng Wu, Jing Chen et al.

CVPR 2025posterarXiv:2503.15211

#2554

GO-N3RDet: Geometry Optimized NeRF-enhanced 3D Object Detector

Zechuan Li, Hongshan Yu, Yihao Ding et al.

#2555

Annotation Ambiguity Aware Semi-Supervised Medical Image Segmentation

Suruchi Kumari, Pravendra Singh

CVPR 2025posterarXiv:2503.17024

#2556

A Tale of Two Classes: Adapting Supervised Contrastive Learning to Binary Imbalanced Datasets

David Mildenberger, Paul Hager, Daniel Rueckert et al.

#2557

A Hubness Perspective on Representation Learning for Graph-Based Multi-View Clustering

Zheming Xu, He Liu, Congyan Lang et al.

#2558

BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer

Yuzhou Liu, Lingjie Zhu, Hanqiao Ye et al.

CVPR 2025posterarXiv:2405.16071

#2559

DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution

Yuzhong Zhao, Feng Liu, Yue Liu et al.

CVPR 2025posterarXiv:2503.16535

#2560

Vision-Language Embodiment for Monocular Depth Estimation

Jinchang Zhang, Guoyu Lu

#2561

SLVR: Super-Light Visual Reconstruction via Blueprint Controllable Convolutions and Exploring Feature Diversity Representation

Ning Ni, Libao Zhang

CVPR 2024posterarXiv:2403.19022

#2562

WALT3D: Generating Realistic Training Data from Time-Lapse Imagery for Reconstructing Dynamic Objects Under Occlusion

Khiem Vuong, N. Dinesh Reddy, Robert Tamburo et al.

CVPR 2025posterarXiv:2505.18686

#2563

WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation

Silin Cheng, Yang Liu, Xinwei He et al.

CVPR 2025posterarXiv:2505.10679

#2564

Are Spatial-Temporal Graph Convolution Networks for Human Action Recognition Over-Parameterized?

Jianyang Xie, Yitian Zhao, Yanda Meng et al.

CVPR 2025posterarXiv:2503.22262

#2565

Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion

Songsong Yu, Yuxin Chen, Zhongang Qi et al.

CVPR 2025posterarXiv:2306.11339

#2566

Masking meets Supervision: A Strong Learning Alliance

Byeongho Heo, Taekyung Kim, Sangdoo Yun et al.

CVPR 2025posterarXiv:2411.17994

#2567

Differentiable Inverse Rendering with Interpretable Basis BRDFs

Hoon-Gyu Chung, Seokjun Choi, Seung-Hwan Baek

CVPR 2025posterarXiv:2505.05446

#2568

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding

Han Xiao, yina xie, Guanxin tan et al.

CVPR 2025posterarXiv:2409.09318

#2569

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

Yahan Tu, Rui Hu, Jitao Sang

CVPR 2025posterarXiv:2412.06295

#2570

See Further When Clear: Curriculum Consistency Model

Yunpeng Liu, Boxiao Liu, Yi Zhang et al.

CVPR 2024posterarXiv:2404.02388

#2571

CAPE: CAM as a Probabilistic Ensemble for Enhanced DNN Interpretation

Townim Chowdhury, Kewen Liao, Vu Minh Hieu Phan et al.

CVPR 2025highlightarXiv:2412.09612

#2572

Olympus: A Universal Task Router for Computer Vision Tasks

Yuanze Lin, Yunsheng Li, Dongdong Chen et al.

CVPR 2025posterarXiv:2504.01204

#2573

Articulated Kinematics Distillation from Video Diffusion Models

Xuan Li, Qianli Ma, Tsung-Yi Lin et al.

CVPR 2025posterarXiv:2406.16473

#2574

D2SP: Dynamic Dual-Stage Purification Framework for Dual Noise Mitigation in Vision-based Affective Recognition.

Haoran Wang, Xinji Mai, Zeng Tao et al.

#2575

Zero-shot RGB-D Point Cloud Registration with Pre-trained Large Vision Model

Haobo Jiang, Jin Xie, Jian Yang et al.

#2576

Distilling Spatially-Heterogeneous Distortion Perception for Blind Image Quality Assessment

Xudong Li, Wenjie Nie, Yan Zhang et al.

#2577

OW-OVD: Unified Open World and Open Vocabulary Object Detection

Xing Xi, Yangyang Huang, Ronghua Luo et al.

#2578

AeSPa : Attention-guided Self-supervised Parallel Imaging for MRI Reconstruction

Jinho Joo, Hyeseong Kim, Hyeyeon Won et al.

CVPR 2025posterarXiv:2506.12738

#2579

Adaptive Dropout: Unleashing Dropout across Layers for Generalizable Image Super-Resolution

Hang Xu, Jie Huang, Wei Yu et al.

#2580

TopNet: Transformer-Efficient Occupancy Prediction Network for Octree-Structured Point Cloud Geometry Compression

Xinjie Wang, Yifan Zhang, Ting Liu et al.

CVPR 2025posterarXiv:2503.00876

#2581

Improve Representation for Imbalanced Regression through Geometric Constraints

Zijian Dong, Yilei Wu, Chongyao Chen et al.

CVPR 2025highlightarXiv:2503.19145

#2582

Compositional Caching for Training-free Open-vocabulary Attribute Detection

Marco Garosi, Alessandro Conti, Gaowen Liu et al.

CVPR 2025posterarXiv:2412.01160

#2583

ControlFace: Harnessing Facial Parametric Control for Face Rigging

Wooseok Jang, Youngjun Hong, Geonho Cha et al.

#2584

Shading Meets Motion: Self-supervised Indoor 3D Reconstruction Via Simultaneous Shape-from-Shading and Structure-from-Motion

Guoyu Lu

CVPR 2025posterarXiv:2504.04085

#2585

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Xiao-Hui Li, Fei Yin, Cheng-Lin Liu

CVPR 2025highlightarXiv:2506.06898

#2586

NSD-Imagery: A Benchmark Dataset for Extending fMRI Vision Decoding Methods to Mental Imagery

Reese Kneeland, Paul Scotti, Ghislain St-Yves et al.

CVPR 2025posterarXiv:2503.18244

#2587

CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation

Jungsoo Lee, Debasmit Das, Munawar Hayat et al.

CVPR 2025posterarXiv:2504.02862

#2588

Towards Understanding How Knowledge Evolves in Large Vision-Language Models

Sudong Wang, Yunjian Zhang, Yao Zhu et al.

#2589

Cheb-GR: Rethinking K-nearest Neighbor Search in Re-ranking for Person Re-identification

Jinxi Yang, He Li, Bo Du et al.

#2590

Efficient Video Super-Resolution for Real-time Rendering with Decoupled G-buffer Guidance

Mingjun Zheng, Long Sun, Jiangxin Dong et al.

CVPR 2025posterarXiv:2412.16460

#2591

Positive2Negative: Breaking the Information-Lossy Barrier in Self-Supervised Single Image Denoising

Tong Li, Lizhi Wang, Zhiyuan Xu et al.

CVPR 2025posterarXiv:2506.18335

#2592

Rethinking Decoder Design: Improving Biomarker Segmentation Using Depth-to-Space Restoration and Residual Linear Attention

Saad Wazir, Daeyoung Kim

CVPR 2025posterarXiv:2503.14161

#2593

CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models

Yiqi Zhu, Ziyue Wang, Can Zhang et al.

#2594

RivuletMLP: An MLP-based Architecture for Efficient Compressed Video Quality Enhancement

Gang He, Weiran Wang, Guancheng Quan et al.

CVPR 2025posterarXiv:2504.15159

#2595

Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration

Junyuan Deng, Xinyi Wu, Yongxing Yang et al.

CVPR 2025posterarXiv:2504.00527

#2596

SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning

Fida Mohammad Thoker, Letian Jiang, Chen Zhao et al.

#2597

Spherical Manifold Guided Diffusion Model for Panoramic Image Generation

Xiancheng Sun, Mai Xu, Shengxi Li et al.

#2598

Anatomical Consistency and Adaptive Prior-informed Transformation for Multi-contrast MR Image Synthesis via Diffusion Model

Yejee Shin, Yeeun Lee, Hanbyol Jang et al.

CVPR 2025posterarXiv:2503.04446

#2599

SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity

Yijie Xu, Bolun Zheng, Wei Zhu et al.

#2600

Reconstruction-free Cascaded Adaptive Compressive Sensing

Chenxi Qiu, Tao Yue, Xuemei Hu