Most Cited CVPR &quot;video-level supervision&quot; Papers

CVPR 2025arXiv:2503.06900

#4602

DirectTriGS: Triplane-based Gaussian Splatting Field Representation for 3D Generation

Xiaoliang Ju, Hongsheng Li

CVPR 2024arXiv:2311.18605

#4603

Learning Triangular Distribution in Visual World

Ping Chen, Xingpeng Zhang, Chengtao Zhou et al.

CVPR 2025arXiv:2505.20513

#4604

MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning

Wenhao Gu, Li Gu, Ching Suen et al.

#4605

Align-A-Video: Deterministic Reward Tuning of Image Diffusion Models for Consistent Video Editing

Shengzhi Wang, Yingkang Zhong, Jiangchuan Mu et al.

#4606

GeoDepth: From Point-to-Depth to Plane-to-Depth Modeling for Self-Supervised Monocular Depth Estimation

Haifeng Wu, Shuhang Gu, Lixin Duan et al.

CVPR 2025arXiv:2505.06580

#4607

TAROT: Towards Essentially Domain-Invariant Robustness with Theoretical Justification

Dongyoon Yang, Jihu Lee, Yongdai Kim

CVPR 2025highlightarXiv:2312.02971

#4608

Image Reconstruction from Readout-Multiplexed Single-Photon Detector Arrays

Shashwath Bharadwaj, Ruangrawee Kitichotkul, Akshay Agarwal et al.

CVPR 2025arXiv:2504.02828

#4609

Concept Lancet: Image Editing with Compositional Representation Transplant

Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan et al.

CVPR 2025arXiv:2502.02091

#4610

Efficient Dynamic Scene Editing via 4D Gaussian-based Static-Dynamic Separation

Joohyun Kwon, Hanbyel Cho, Junmo Kim

CVPR 2025arXiv:2505.22764

#4611

Test-time Augmentation Improves Efficiency in Conformal Prediction

Divya M Shanmugam, Helen Lu, Swami Sankaranarayanan et al.

CVPR 2025arXiv:2504.15397

#4612

MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World

Ankit Dhiman, Manan Shah, R. Venkatesh Babu

#4613

Attraction Diminishing and Distributing for Few-Shot Class-Incremental Learning

Li-Jun Zhao, Zhen-Duo Chen, Yongxin Wang et al.

CVPR 2025arXiv:2505.03638

#4614

Towards Smart Point-and-Shoot Photography

Jiawan Li, Fei Zhou, Zhipeng Zhong et al.

#4615

Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2D

Jiawei Tan, Hongxing Wang, Junwu Weng et al.

#4616

VSNet: Focusing on the Linguistic Characteristics of Sign Language

Yuhao Li, Xinyue Chen, Hongkai Li et al.

CVPR 2025arXiv:2503.18364

#4617

MaSS13K: A Matting-level Semantic Segmentation Benchmark

Chenxi Xie, Minghan LI, Hui Zeng et al.

#4618

Sketchtopia: A Dataset and Foundational Agents for Benchmarking Asynchronous Multimodal Communication with Iconic Feedback

Mohd Hozaifa Khan, Ravi Kiran Sarvadevabhatla

CVPR 2025arXiv:2504.11786

#4619

DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report Generation

Sang-Jun Park, Keun-Soo Heo, Dong-Hee Shin et al.

CVPR 2025highlightarXiv:2411.03745

#4620

Simulator HC: Regression-based Online Simulation of Starting Problem-Solution Pairs for Homotopy Continuation in Geometric Vision

Xinyue Zhang, Zijia Dai, Wanting Xu et al.

#4621

Automatic Spectral Calibration of Hyperspectral Images: Method, Dataset and Benchmark

Zhuoran Du, Shaodi You, Cheng Cheng et al.

#4622

Animating General Image with Large Visual Motion Model

Dengsheng Chen, Xiaoming Wei, Xiaolin Wei

CVPR 2025arXiv:2503.04030

#4623

Self-Supervised Large Scale Point Cloud Completion for Archaeological Site Restoration

Aocheng Li, James R. Zimmer-Dauphinee, Rajesh Kalyanam et al.

CVPR 2025arXiv:2505.10671

#4624

GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context Encoding

Yuki Kawana, Shintaro Shiba, Quan Kong et al.

CVPR 2025arXiv:2503.22537

#4625

LIM: Large Interpolator Model for Dynamic Reconstruction

Remy Sabathier, Niloy J. Mitra, David Novotny

CVPR 2025arXiv:2503.13915

#4626

Unlocking the Potential of Unlabeled Data in Semi-Supervised Domain Generalization

Dongkwan Lee, Kyomin Hwang, Nojun Kwak

#4627

Pose-Guided Temporal Enhancement for Robust Low-Resolution Hand Reconstruction

Kaixin Fan, Pengfei Ren, Jingyu Wang et al.

#4628

Fitted Neural Lossless Image Compression

Zhe Zhang, Zhenzhong Chen, Shan Liu

CVPR 2024arXiv:2403.20225

#4629

MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark

Sanghyun Woo, Kwanyong Park, Inkyu Shin et al.

#4630

Attribute-Missing Multi-view Graph Clustering

Bowen Zhao, Qianqian Wang, Zhengming Ding et al.

#4631

D^3CTTA: Domain-Dependent Decorrelation for Continual Test-Time Adaption of 3D LiDAR Segmentation

Jichun Zhao, Haiyong Jiang, Haoxuan Song et al.

#4632

Self-Supervised Learning for Color Spike Camera Reconstruction

Yanchen Dong, Ruiqin Xiong, Xiaopeng Fan et al.

#4633

OpticalNet: An Optical Imaging Dataset and Benchmark Beyond the Diffraction Limit

Benquan Wang, Ruyi An, Jin-Kyu So et al.

CVPR 2025highlightarXiv:2411.16170

#4634

CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction

Yuan Zhou, Qingshan Xu, Jiequan Cui et al.

CVPR 2025arXiv:2505.15414

#4635

Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks

Uranik Berisha, Jens Mehnert, Alexandru Paul Condurache

CVPR 2025arXiv:2501.01235

#4636

SVFR: A Unified Framework for Generalized Video Face Restoration

Zhiyao Wang, Xu Chen, Chengming Xu et al.

CVPR 2025arXiv:2504.06389

#4637

SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation

Hritam Basak, Zhaozheng Yin

CVPR 2024arXiv:2308.13223

#4638

EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Priors

Zhipeng Hu, Minda Zhao, Chaoyi Zhao et al.

#4639

Quad-Pixel Image Defocus Deblurring: A New Benchmark and Model

Hang Chen, Yin Xie, Xiaoxiu Peng et al.

CVPR 2025arXiv:2506.09510

#4640

Generalized Gaussian Entropy Model for Point Cloud Attribute Compression with Dynamic Likelihood Intervals

Changhao Peng

#4641

Hierarchical Gaussian Mixture Model Splatting for Efficient and Part Controllable 3D Generation

Qitong Yang, Mingtao Feng, Zijie Wu et al.

#4642

EnliveningGS: Active Locomotion of 3DGS

Siyuan Shen, Tianjia Shao, Kun Zhou et al.

CVPR 2025arXiv:2504.02011

#4643

Random Conditioning with Distillation for Data-Efficient Diffusion Model Compression

Dohyun Kim, Sehwan Park, GeonHee Han et al.

CVPR 2025arXiv:2507.01721

#4644

Soft Self-labeling and Potts Relaxations for Weakly-supervised Segmentation

Zhongwen Zhang, Yuri Boykov

CVPR 2025arXiv:2501.04293

#4645

TADFormer: Task-Adaptive Dynamic TransFormer for Efficient Multi-Task Learning

Seungmin Baek, Soyul Lee, Hayeon Jo et al.

CVPR 2025highlightarXiv:2505.00502

#4646

Towards Scalable Human-aligned Benchmark for Text-guided Image Editing

Suho Ryu, Kihyun Kim, Eugene Baek et al.

CVPR 2025arXiv:2412.04456

#4647

HeatFormer: A Neural Optimizer for Multiview Human Mesh Recovery

Yuto Matsubara, Ko Nishino

CVPR 2025highlightarXiv:2411.18335

#4648

HELVIPAD: A Real-World Dataset for Omnidirectional Stereo Depth Estimation

Mehdi Zayene, Albias Havolli, Jannik Endres et al.

CVPR 2025arXiv:2502.04369

#4649

HSI: A Holistic Style Injector for Arbitrary Style Transfer

Shuhao Zhang, Hui Kang, Yang Liu et al.

CVPR 2025highlightarXiv:2505.21377

#4650

Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility

Yidi Li, Jun Xiao, Zhengda Lu et al.

#4651

Adapting to Observation Length of Trajectory Prediction via Contrastive Learning

Ruiqi Qiu, JUN GONG, Xinyu Zhang et al.

CVPR 2025arXiv:2506.02396

#4652

Towards Explicit Geometry-Reflectance Collaboration for Generalized LiDAR Segmentation in Adverse Weather

Longyu Yang, Ping Hu, Shangbo Yuan et al.

#4653

IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular VideosC

Yuan Li, Ziqian Bai, Feitong Tan et al.

CVPR 2025arXiv:2507.02687

#4654

APT: Adaptive Personalized Training for Diffusion Models with Limited Data

JungWoo Chae, Jiyoon Kim, Jaewoong Choi et al.

#4655

Multi-modal Contrastive Learning with Negative Sampling Calibration for Phenotypic Drug Discovery

Jiahua Rao, Hanjing Lin, Leyu Chen et al.

CVPR 2025highlightarXiv:2504.20403

#4656

Creating Your Editable 3D Photorealistic Avatar with Tetrahedron-constrained Gaussian Splatting

Hanxi Liu, Yifang Men, Zhouhui Lian

#4657

Dual Semantic Guidance for Open Vocabulary Semantic Segmentation

ZhengYang Wang, Tingliang Feng, Fan Lyu et al.

#4658

Boost the Inference with Co-training: A Depth-guided Mutual Learning Framework for Semi-supervised Medical Polyp Segmentation

Yuxin Li, Zihao Zhu, Yuxiang Zhang et al.

CVPR 2025arXiv:2506.03117

#4659

Targeted Forgetting of Image Subgroups in CLIP Models

Zeliang Zhang, Gaowen Liu, Charles Fleming et al.

CVPR 2025arXiv:2303.02610

#4660

HyperPose: Hypernetwork-Infused Camera Pose Localization and an Extended Cambridge Landmarks Dataset

Ron Ferens, Yosi Keller

CVPR 2025arXiv:2504.06801

#4661

MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection

Rishubh Parihar, Srinjay Sarkar, Sarthak Vora et al.

CVPR 2025arXiv:2501.04666

#4662

Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling

Nannan Li, Kevin Shih, Bryan A. Plummer

CVPR 2025arXiv:2407.02165

#4663

WildAvatar: Learning In-the-wild 3D Avatars from the Web

Zihao Huang, Shoukang Hu, Guangcong Wang et al.

CVPR 2025arXiv:2505.09413

#4664

Sparse Point Cloud Patches Rendering via Splitting 2D Gaussians

Changfeng Ma, Ran Bi, Jie Guo et al.

#4665

Libra-Merging: Importance-redundancy and Pruning-merging Trade-off for Acceleration Plug-in in Large Vision-Language Model

Longrong Yang, Dong Shen, Chaoxiang Cai et al.

#4666

AdaptCMVC: Robust Adaption to Incremental Views in Continual Multi-view Clustering

Jing Wang, Songhe Feng, Kristoffer Knutsen Wickstrøm et al.

CVPR 2025arXiv:2409.03745

#4667

ArtiFade: Learning to Generate High-quality Subject from Blemished Images

Shuya Yang, Shaozhe Hao, Yukang Cao et al.

#4668

DynPose: Largely Improving the Efficiency of Human Pose Estimation by a Simple Dynamic Framework

Yalong Xu, Lin Zhao, Chen Gong et al.

CVPR 2025arXiv:2503.08382

#4669

Twinner: Shining Light on Digital Twins in a Few Snaps

Jesus Zarzar, Tom Monnier, Roman Shapovalov et al.

CVPR 2025arXiv:2503.15975

#4670

Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation

Kendong Liu, Zhiyu Zhu, Hui LIU et al.

#4671

MAGE : Single Image to Material-Aware 3D via the Multi-View G-Buffer Estimation Model

Haoyuan Wang, Zhenwei Wang, Xiaoxiao Long et al.

#4672

GroundingFace: Fine-grained Face Understanding via Pixel Grounding Multimodal Large Language Model

Yue Han, Jiangning Zhang, Junwei Zhu et al.

#4673

Self-Supervised Cross-View Correspondence with Predictive Cycle Consistency

Alan Baade, Changan Chen

CVPR 2025arXiv:2503.09122

#4674

Training Data Provenance Verification: Did Your Model Use Synthetic Data from My Generative Model for Training?

Yuechen Xie, Jie Song, Huiqiong Wang et al.

CVPR 2024highlightarXiv:2406.08292

#4675

Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata

Dongsu Zhang, Francis Williams, Žan Gojčič et al.

#4676

Minimal Interaction Seperated Tuning: A New Paradigm for Visual Adaptation

Ningyuan Tang, Minghao Fu, Jianxin Wu

CVPR 2025arXiv:2506.14808

#4677

PARC: A Quantitative Framework Uncovering the Symmetries within Vision Language Models

Jenny Schmalfuss, Nadine Chang, Vibashan VS et al.

CVPR 2025arXiv:2505.12685

#4678

Mamba-Adaptor: State Space Model Adaptor for Visual Recognition

Fei Xie, Jiahao Nie, Yujin Tang et al.

CVPR 2024arXiv:2402.16594

#4679

CURSOR: Scalable Mixed-Order Hypergraph Matching with CUR Decomposition

Qixuan Zheng, Ming Zhang, Hong Yan

CVPR 2025arXiv:2502.04074

#4680

3D Prior Is All You Need: Cross-Task Few-shot 2D Gaze Estimation

Yihua Cheng, Hengfei Wang, Zhongqun Zhang et al.

CVPR 2025arXiv:2505.02071

#4681

Hierarchical Compact Clustering Attention (COCA) for Unsupervised Object-Centric Learning

Can Küçüksözen, Yucel Yemez

CVPR 2025arXiv:2506.23623

#4682

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer

Shaofei Huang, Rui Ling, Tianrui Hui et al.

CVPR 2025arXiv:2512.20174

#4683

Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark

Hao Guo, Xugong Qin, Jun Jie Ou Yang et al.

#4684

Revisiting Fairness in Multitask Learning: A Performance-Driven Approach for Variance Reduction

Xiaohan Qin, Xiaoxing Wang, Junchi Yan

#4685

PHGC: Procedural Heterogeneous Graph Completion for Natural Language Task Verification in Egocentric Videos

Xun Jiang, Zhiyi Huang, Xing Xu et al.

#4686

CSC-PA: Cross-image Semantic Correlation via Prototype Attentions for Single-network Semi-supervised Breast Tumor Segmentation

Zhenhui Ding, Guilian Chen, Qin Zhang et al.

CVPR 2025highlightarXiv:2503.10149

#4687

Unlocking Generalization Power in LiDAR Point Cloud Registration

Zhenxuan Zeng, Qiao Wu, Xiyu Zhang et al.

#4688

Dual Energy-Based Model with Open-World Uncertainty Estimation for Out-of-distribution Detection

Qi Chen, Hu Ding

CVPR 2025highlightarXiv:2501.01601

#4689

Few-shot Implicit Function Generation via Equivariance

Suizhi Huang, Xingyi Yang, Hongtao Lu et al.

CVPR 2025arXiv:2503.19794

#4690

PAVE: Patching and Adapting Video Large Language Models

Zhuoming Liu, Yiquan Li, Khoi D Nguyen et al.

CVPR 2025arXiv:2503.00260

#4691

Seeing A 3D World in A Grain of Sand

Yufan Zhang, Yu Ji, Yu Guo et al.

#4692

Feature Spectrum Learning for Remote Sensing Change Detection

Qi Zang, Dong Zhao, Shuang Wang et al.

#4693

Unified Reconstruction of Static and Dynamic Scenes from Events

Qiyao Gao, Peiqi Duan, Hanyue Lou et al.

#4694

Explicit Depth-Aware Blurry Video Frame Interpolation Guided by Differential Curves

yan zaoming, pengcheng lei, Tingting Wang et al.

#4695

Active Event-based Stereo Vision

Jianing Li, Yunjian Zhang, Haiqian Han et al.

CVPR 2025highlightarXiv:2504.02199

#4696

ESC: Erasing Space Concept for Knowledge Deletion

Tae-Young Lee, Sundong Park, Minwoo Jeon et al.

CVPR 2025arXiv:2407.07052

#4697

Latent Space Imaging

Matheus Souza, Yidan Zheng, Kaizhang Kang et al.

CVPR 2025arXiv:2504.07146

#4698

VideoSPatS: Video SPatiotemporal Splines for Disentangled Occlusion, Appearance and Motion Modeling and Editing

Juan Luis Gonzalez Bello, Xu Yao, Alex Whelan et al.

#4699

PIAD: Pose and Illumination agnostic Anomaly Detection

Kaichen Yang, Junjie Cao, Zeyu Bai et al.

CVPR 2025arXiv:2503.17752

#4700

HiLoTs: High-Low Temporal Sensitive Representation Learning for Semi-Supervised LiDAR Segmentation in Autonomous Driving

R.D. Lin, Pengcheng Weng, Yinqiao Wang et al.

CVPR 2025arXiv:2406.20099

#4701

Odd-One-Out: Anomaly Detection by Comparing with Neighbors

Ankan Kumar Bhunia, Changjian Li, Hakan Bilen

CVPR 2025arXiv:2502.10674

#4702

Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition

Khanh Nguyen, Ghulam Mubashar Hassan, Ajmal Mian

#4703

Implicit Correspondence Learning for Image-to-Point Cloud Registration

Xinjun Li, Wenfei Yang, Jiacheng Deng et al.

CVPR 2025arXiv:2505.07333

#4704

Link to the Past: Temporal Propagation for Fast 3D Human Reconstruction from Monocular Video

Marchellus Matthew, Nadhira Noor, In Kyu Park

CVPR 2025arXiv:2504.17261

#4705

Symbolic Representation for Any-to-Any Generative Tasks

Jiaqi Chen, Xiaoye Zhu, Yue Wang et al.

CVPR 2025arXiv:2505.19793

#4706

Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field Reconstruction

Li Fang, Hao Zhu, Longlong Chen et al.

CVPR 2025arXiv:2303.16078

#4707

Practical Solutions to the Relative Pose of Three Calibrated Cameras

Charalambos Tzamos, Viktor Kocur, Yaqing Ding et al.

#4708

Take the Bull by the Horns: Learning to Segment Hard Samples

Yuan Guo, Jingyu Kong, Yu Wang et al.

CVPR 2024arXiv:2405.04309

#4709

Non-Rigid Structure-from-Motion: Temporally-Smooth Procrustean Alignment and Spatially-Variant Deformation Modeling

Jiawei Shi, Hui Deng, Yuchao Dai

CVPR 2025arXiv:2503.18507

#4710

Can Text-to-Video Generation help Video-Language Alignment?

Luca Zanella, Massimiliano Mancini, Willi Menapace et al.

CVPR 2025arXiv:2502.21048

#4711

Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior

Chanhui Lee, Yeonghwan Song, Jeany Son

CVPR 2025arXiv:2504.19581

#4712

SAMBLE: Shape-Specific Point Cloud Sampling for an Optimal Trade-Off Between Local Detail and Global Uniformity

Chengzhi Wu, Yuxin Wan, Hao Fu et al.

#4713

CamPoint: Boosting Point Cloud Segmentation with Virtual Camera

Jianhui Zhang, Luo Yizhi, Zicheng Zhang et al.

#4714

Vision-Guided Action: Enhancing 3D Human Motion Prediction with Gaze-informed Affordance in 3D Scenes

Ting Yu, Yi Lin, Jun Yu et al.

#4715

VRetouchEr: Learning Cross-frame Feature Interdependence with Imperfection Flow for Face Retouching in Videos

Wen Xue, Le Jiang, Lianxin Xie et al.

CVPR 2025arXiv:2504.02465

#4716

RASP: Revisiting 3D Anamorphic Art for Shadow-Guided Packing of Irregular Objects

Soumyaratna Debnath, Ashish Tiwari, Kaustubh Sadekar et al.

CVPR 2025arXiv:2505.10281

#4717

MFogHub: Bridging Multi-Regional and Multi-Satellite Data for Global Marine Fog Detection and Forecasting

Mengqiu XU, Kaixin Chen, Heng Guo et al.

#4718

EvOcc: Accurate Semantic Occupancy for Automated Driving Using Evidence Theory

Jonas Kälble, Sascha Wirges, Maxim Tatarchenko et al.

CVPR 2025highlightarXiv:2503.23094

#4719

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video

Andrea Boscolo Camiletto, Jian Wang, Eduardo Alvarado et al.

CVPR 2025arXiv:2412.01140

#4720

Dense Dispersed Structured Light for Hyperspectral 3D Imaging of Dynamic Scenes

Suhyun Shin, Seungwoo Yoon, Ryota Maeda et al.

#4721

Customized Condition Controllable Generation for Video Soundtrack

Fan Qi, KunSheng Ma, Changsheng Xu

CVPR 2024arXiv:2404.06044

#4722

Object Dynamics Modeling with Hierarchical Point Cloud-based Representations

Chanho Kim, Li Fuxin

#4723

Beyond Image Classification: A Video Benchmark and Dual-Branch Hybrid Discrimination Framework for Compositional Zero-Shot Learning

Dongyao Jiang, Haodong Jing, Yongqiang Ma et al.

CVPR 2025arXiv:2503.18483

#4724

Explaining Domain Shifts in Language: Concept Erasing for Interpretable Image Classification

Zequn Zeng, Yudi Su, Jianqiao Sun et al.

#4725

LoKi: Low-dimensional KAN for Efficient Fine-tuning Image Models

Xuan Cai, Renjie Pan, Hua Yang

#4726

WISNet: Pseudo Label Generation on Unbalanced and Patch Annotated Waste Images

Shifan Zhang, Hongzi Zhu, Yinan He et al.

CVPR 2024arXiv:2404.18399

#4727

Semantic Line Combination Detector

JINWON KO, Dongkwon Jin, Chang-Su Kim

CVPR 2025arXiv:2412.09723

#4728

MAC-Ego3D: Multi-Agent Gaussian Consensus for Real-Time Collaborative Ego-Motion and Photorealistic 3D Reconstruction

Xiaohao Xu, Feng Xue, Shibo Zhao et al.

CVPR 2025arXiv:2506.07750

#4729

Difference Inversion: Interpolate and Isolate the Difference with Token Consistency for Image Analogy Generation

Hyunsoo Kim, Donghyun Kim, Suhyun Kim

#4730

GaPT-DAR: Category-level Garments Pose Tracking via Integrated 2D Deformation and 3D Reconstruction

Li Zhang, mingliang xu, Jianan Wang et al.

#4731

Meta-Learning Hyperparameters for Parameter Efficient Fine-Tuning

Zichen Tian, Yaoyao Liu, Qianru Sun

CVPR 2025arXiv:2503.19846

#4732

Attention IoU: Examining Biases in CelebA using Attention Maps

Aaron Serianni, Tyler Zhu, Olga Russakovsky et al.

#4733

CoSER: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation

Bonan Li, Zicheng Zhang, Xingyi Yang et al.

CVPR 2025arXiv:2505.16399

#4734

Sketchy Bounding-box Supervision for 3D Instance Segmentation

qian deng, Le Hui, Jin Xie et al.

#4735

Medusa: A Multi-Scale High-order Contrastive Dual-Diffusion Approach for Multi-View Clustering

Liang Chen, Zhe Xue, Yawen Li et al.

CVPR 2025arXiv:2503.05333

#4736

PhysicsGen: Can Generative Models Learn from Images to Predict Complex Physical Relations?

Martin Spitznagel, Jan Vaillant, Janis Keuper

CVPR 2025arXiv:2407.15806

#4737

FSboard: Over 3 Million Characters of ASL Fingerspelling Collected via Smartphones

Manfred Georg, Garrett Tanzer, Esha Uboweja et al.

#4738

CaMuViD: Calibration-Free Multi-View Detection

Amir Etefaghi Daryani, M. Usman Maqbool Bhutta, Byron Hernandez et al.

#4739

De^2Gaze: Deformable and Decoupled Representation Learning for 3D Gaze Estimation

Yunfeng Xiao, Xiaowei Bai, Baojun Chen et al.

#4740

Saliuitl: Ensemble Salience Guided Recovery of Adversarial Patches against CNNs

Mauricio Byrd Victorica, György Dán, Henrik Sandberg

CVPR 2025highlightarXiv:2506.10182

#4741

Improving Personalized Search with Regularized Low-Rank Parameter Updates

Fiona Ryan, Josef Sivic, Fabian Caba Heilbron et al.

CVPR 2025highlightarXiv:2504.10158

#4742

COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts

Jiansheng Li, Xingxuan Zhang, Hao Zou et al.

CVPR 2025arXiv:2502.20499

#4743

Data Distributional Properties As Inductive Bias for Systematic Generalization

Felipe del Rio, Alain Raymond, Daniel Florea et al.

#4744

Polarized Color Screen Matting

Kenji Enomoto, Scott Cohen, Brian Price et al.

#4745

UMFN: Unified Multi-Domain Face Normalization for Joint Cross-domain Prototype Learning and Heterogeneous Face Recognition

Meng Pang, Wenjun Zhang, Nanrun Zhou et al.

CVPR 2025arXiv:2502.08646

#4746

Poly-Autoregressive Prediction for Modeling Interactions

Neerja Thakkar, Tara Sadjadpour, Jathushan Rajasegaran et al.

#4747

Incorporating Dense Knowledge Alignment into Unified Multimodal Representation Models

Yuhao Cui, Xinxing Zu, Wenhua Zhang et al.

#4748

PURA: Parameter Update-Recovery Test-Time Adaption for RGB-T Tracking

Zekai Shao, Yufan Hu, Bin Fan et al.

#4749

SinGS: Animatable Single-Image Human Gaussian Splats with Kinematic Priors

Yufan Wu, Xuanhong Chen, Wen Li et al.

CVPR 2024arXiv:2404.05063

#4750

AUEditNet: Dual-Branch Facial Action Unit Intensity Manipulation with Implicit Disentanglement

Shiwei Jin, Zhen Wang, Lei Wang et al.

CVPR 2025arXiv:2502.02187

#4751

ShapeShifter: 3D Variations Using Multiscale and Sparse Point-Voxel Diffusion

Nissim Maruani, Wang Yifan, Matthew Fisher et al.

#4752

Spk2SRImgNet: Super-Resolve Dynamic Scene from Spike Stream via Motion Aligned Collaborative Filtering

Yuanlin Wang, Yiyang Zhang, Ruiqin Xiong et al.

#4753

Graph Neural Network Combining Event Stream and Periodic Aggregation for Low-Latency Event-based Vision

Manon Dampfhoffer, Thomas Mesquida, Damien Joubert et al.

#4754

Revisiting Generative Replay for Class Incremental Object Detection

Shizhou Zhang, Xueqiang Lv, Yinghui Xing et al.

CVPR 2025arXiv:2412.06146

#4755

Homogeneous Dynamics Space for Heterogeneous Humans

Xinpeng Liu, Junxuan Liang, Chenshuo Zhang et al.

CVPR 2025highlightarXiv:2503.10000

#4756

MetricGrids: Arbitrary Nonlinear Approximation with Elementary Metric Grids based Implicit Neural Representation

Shu Wang, Yanbo Gao, Shuai Li et al.

#4757

Boosting Point-Supervised Temporal Action Localization through Integrating Query Reformation and Optimal Transport

Mengnan Liu, Le Wang, Sanping Zhou et al.

CVPR 2024arXiv:2403.05005

#4758

DITTO: Dual and Integrated Latent Topologies for Implicit 3D Reconstruction

Jaehyeok Shim, Kyungdon Joo

CVPR 2024arXiv:2303.17890

#4759

Fooling Polarization-Based Vision using Locally Controllable Polarizing Projection

Zhuoxiao Li, Zhihang Zhong, Shohei Nobuhara et al.

CVPR 2025arXiv:2504.21435

#4760

SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

chenkai zhang, Yiming Lei, Zeming Liu et al.

#4761

PaReNeRF: Toward Fast Large-scale Dynamic NeRF with Patch-based Reference

Xiao Tang, Min Yang, Penghui Sun et al.

#4762

Tuning Stable Rank Shrinkage: Aiming at the Overlooked Structural Risk in Fine-tuning

Sicong Shen, Yang Zhou, Bingzheng Wei et al.

#4763

SD2Event:Self-supervised Learning of Dynamic Detectors and Contextual Descriptors for Event Cameras

Yuan Gao, Yuqing Zhu, Xinjun Li et al.

#4764

See Say and Segment: Teaching LMMs to Overcome False Premises

Tsung-Han Wu, Giscard Biamby, David Chan et al.

#4765

MTLoRA: Low-Rank Adaptation Approach for Efficient Multi-Task Learning

Ahmed Agiza, Marina Neseem, Sherief Reda

#4766

LiDAR-Net: A Real-scanned 3D Point Cloud Dataset for Indoor Scenes

Yanwen Guo, Yuanqi Li, Dayong Ren et al.

#4767

D3still: Decoupled Differential Distillation for Asymmetric Image Retrieval

Yi Xie, Yihong Lin, Wenjie Cai et al.

#4768

Attack To Defend: Exploiting Adversarial Attacks for Detecting Poisoned Models

Samar Fares, Karthik Nandakumar

#4769

Shallow-Deep Collaborative Learning for Unsupervised Visible-Infrared Person Re-Identification

Bin Yang, Jun Chen, Mang Ye

#4770

Shadow-Enlightened Image Outpainting

Hang Yu, Ruilin Li, Shaorong Xie et al.

#4771

Validating Privacy-Preserving Face Recognition under a Minimum Assumption

Hui Zhang, Xingbo Dong, YenLungLai et al.

#4772

Spatial-Aware Regression for Keypoint Localization

Dongkai Wang, Shiliang Zhang

#4773

Don’t Drop Your Samples! Coherence-Aware Training Benefits Conditional Diffusion

Nicolas Dufour, Victor Besnier, Vicky Kalogeiton et al.

#4774

IDGuard: Robust General Identity-centric POI Proactive Defense Against Face Editing Abuse

Yunshu Dai, Jianwei Fei, Fangjun Huang

#4775

Edge-Aware 3D Instance Segmentation Network with Intelligent Semantic Prior

Wonseok Roh, Hwanhee Jung, Giljoo Nam et al.

#4776

Forecasting of 3D Whole-body Human Poses with Grasping Objects

yan haitao, Qiongjie Cui, Jiexin Xie et al.

#4777

DIOD: Self-Distillation Meets Object Discovery

Sandra Kara, Hejer AMMAR, Julien Denize et al.

#4778

Pose-Transformed Equivariant Network for 3D Point Trajectory Prediction

Ruixuan Yu, Jian Sun

#4779

Synthesize Diagnose and Optimize: Towards Fine-Grained Vision-Language Understanding

Wujian Peng, Sicheng Xie, Zuyao You et al.

#4780

3DToonify: Creating Your High-Fidelity 3D Stylized Avatar Easily from 2D Portrait Images

Yifang Men, Hanxi Liu, Yuan Yao et al.

#4781

View From Above: Orthogonal-View aware Cross-view Localization

Shan Wang, Chuong Nguyen, Jiawei Liu et al.

#4782

Pixel-level Semantic Correspondence through Layout-aware Representation Learning and Multi-scale Matching Integration

Yixuan Sun, Zhangyue Yin, Haibo Wang et al.

#4783

GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors

Yuan Dong, Qi Zuo, Xiaodong Gu et al.

#4784

JoAPR: Cleaning the Lens of Prompt Learning for Vision-Language Models

YUNCHENG GUO, Xiaodong Gu

#4785

Compositional Video Understanding with Spatiotemporal Structure-based Transformers

Hoyeoung Yun, Jinwoo Ahn, Minseo Kim et al.

#4786

Improving Training Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architecture

Huijie Zhang, Yifu Lu, Ismail Alkhouri et al.

#4787

Class Tokens Infusion for Weakly Supervised Semantic Segmentation

Sung-Hoon Yoon, Hoyong Kwon, Hyeonseong Kim et al.

#4788

Dual-Consistency Model Inversion for Non-Exemplar Class Incremental Learning

Zihuan Qiu, Yi Xu, Fanman Meng et al.

#4789

Training Vision Transformers for Semi-Supervised Semantic Segmentation

Xinting Hu, Li Jiang, Bernt Schiele

#4790

Person in Place: Generating Associative Skeleton-Guidance Maps for Human-Object Interaction Image Editing

ChangHee Yang, ChanHee Kang, Kyeongbo Kong et al.

#4791

Estimating Extreme 3D Image Rotations using Cascaded Attention

Shay Dekel, Yosi Keller, Martin Čadík

#4792

Open-Vocabulary 3D Semantic Segmentation with Foundation Models

Li Jiang, Shaoshuai Shi, Bernt Schiele

#4793

Draw Step by Step: Reconstructing CAD Construction Sequences from Point Clouds via Multimodal Diffusion.

Weijian Ma, Shuaiqi Chen, Yunzhong Lou et al.

#4794

Absolute Pose from One or Two Scaled and Oriented Features

Jonathan Ventura, Zuzana Kukelova, Torsten Sattler et al.

#4795

Higher-order Relational Reasoning for Pedestrian Trajectory Prediction

Sungjune Kim, Hyung-gun Chi, Hyerin Lim et al.

#4796

TransLoc4D: Transformer-based 4D Radar Place Recognition

Guohao Peng, Heshan Li, Yangyang Zhao et al.

#4797

Domain Gap Embeddings for Generative Dataset Augmentation

Yinong Oliver Wang, Younjoon Chung, Chen Henry Wu et al.

#4798

DeMatch: Deep Decomposition of Motion Field for Two-View Correspondence Learning

Shihua Zhang, Zizhuo Li, Yuan Gao et al.

#4799

CORES: Convolutional Response-based Score for Out-of-distribution Detection

Keke Tang, Chao Hou, Weilong Peng et al.

#4800

HOI-M^3: Capture Multiple Humans and Objects Interaction within Contextual Environment

Juze Zhang, Jingyan Zhang, Zining Song et al.