Most Cited CVPR &quot;kv cache pressure&quot; Papers

CVPR 2025highlightarXiv:2505.21335

#5204

Structure from Collision

Takuhiro Kaneko

#5205

Learning Flow Fields in Attention for Controllable Person Image Generation

Zijian Zhou, Shikun Liu, Xiao Han et al.

CVPR 2025arXiv:2412.08486

#5206

Rectification-specific Supervision and Constrained Estimator for Online Stereo Rectification

Rui Gong, Kim-Hui Yap, Weide Liu et al.

CVPR 2025arXiv:2409.03368

#5207

Inference-Scale Complexity in ANN-SNN Conversion for High-Performance and Low-Power Applications

Tong Bu, Maohua Li, Zhaofei Yu

#5208

Dual Focus-Attention Transformer for Robust Point Cloud Registration

Kexue Fu, Ming'zhi Yuan, Changwei Wang et al.

CVPR 2025arXiv:2411.10364

#5209

Forming Auxiliary High-confident Instance-level Loss to Promote Learning from Label Proportions

Tianhao Ma, Han Chen, Juncheng Hu et al.

#5210

Towards Open-Vocabulary Audio-Visual Event Localization

Jinxing Zhou, Dan Guo, Ruohao Guo et al.

CVPR 2025arXiv:2411.11278

#5211

Language-Guided Salient Object Ranking

Fang Liu, Yuhao Liu, Ke Xu et al.

CVPR 2025arXiv:2503.00881

#5212

Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization

You Shen, Zhipeng Zhang, Xinyang Li et al.

#5213

Traversing Distortion-Perception Tradeoff using a Single Score-Based Generative Model

Yuhan Wang, Suzhi Bi, Ying-Jun Angela Zhang et al.

CVPR 2025arXiv:2503.20297

#5214

IceDiff: High Resolution and High-Quality Arctic Sea Ice Forecasting with Generative Diffusion Prior

Jingyi Xu, Siwei Tu, Weidong Yang et al.

CVPR 2025highlightarXiv:2503.18337

#5215

Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models

Zichen Miao, WEI CHEN, Qiang Qiu

#5216

MVBoost: Boost 3D Reconstruction with Multi-View Refinement

Xiangyu Liu, Xiaomei Zhang, Zhiyuan Ma et al.

CVPR 2025arXiv:2411.17772

#5217

MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations

Ziyang Zhang, Yang Yu, Yucheng Chen et al.

CVPR 2025arXiv:2503.01019

#5218

Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation

Pu Cao, Feng Zhou, Lu Yang et al.

CVPR 2025arXiv:2312.08195

#5219

SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models

Wufei Ma, Luoxin Ye, Nessa McWeeney et al.

CVPR 2025highlightarXiv:2505.00788

#5220

ODCR: Orthogonal Decoupling Contrastive Regularization for Unpaired Image Dehazing

Zhongze Wang, Haitao Zhao, Jingchao Peng et al.

CVPR 2024arXiv:2404.17825

#5221

Beyond Generation: A Diffusion-based Low-level Feature Extractor for Detecting AI-generated Images

Nan Zhong, Haoyu Chen, Yiran Xu et al.

CVPR 2025arXiv:2505.16811

#5222

Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining

Shangquan Sun, Wenqi Ren, Juxiang Zhou et al.

#5223

S2D-LFE: Sparse-to-Dense Light Field Event Generation

Yutong Liu, Wenming Weng, Yueyi Zhang et al.

CVPR 2025arXiv:2407.05712

#5224

MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices

Jianwen Jiang, Gaojie Lin, Zhengkun Rong et al.

#5225

Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising

Yongli Xiang, Ziming Hong, Lina Yao et al.

CVPR 2025arXiv:2503.17198

#5226

MobileMamba: Lightweight Multi-Receptive Visual Mamba Network

Haoyang He, Jiangning Zhang, Yuxuan Cai et al.

CVPR 2025arXiv:2411.15941

#5227

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

Sagar Soni, Akshay Dudhane, Hiyam Debary et al.

CVPR 2025arXiv:2412.15190

#5228

Learning Endogenous Attention for Incremental Object Detection

Xiang Song, Yuhang He, Jingyuan Li et al.

CVPR 2025highlightarXiv:2407.09392

#5229

Open-Canopy: Towards Very High Resolution Forest Monitoring

Fajwel Fogel, Yohann PERRON, Nikola Besic et al.

#5230

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation

Tianxing Chen, Yao Mu, Zhixuan Liang et al.

CVPR 2025arXiv:2411.18369

#5231

Beyond Clean Training Data: A Versatile and Model-Agnostic Framework for Out-of-Distribution Detection with Contaminated Training Data

Yuchuan Li, Jae-Mo Kang, Il-Min Kim

#5232

Minimizing Labeled, Maximizing Unlabeled: An Image-Driven Approach for Video Instance Segmentation

Fangyun Wei, Jinjing Zhao, Kun Yan et al.

CVPR 2025arXiv:2411.15205

#5233

DAGSM: Disentangled Avatar Generation with GS-enhanced Mesh

Jingyu Zhuang, Di Kang, Linchao Bao et al.

#5234

DeClotH: Decomposable 3D Cloth and Human Body Reconstruction from a Single Image

Hyeongjin Nam, Donghwan Kim, Jeongtaek Oh et al.

CVPR 2025arXiv:2503.19373

#5235

Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation

Taeyoung Yun, Dinghuai Zhang, Jinkyoo Park et al.

CVPR 2025arXiv:2502.11477

#5236

MTADiffusion: Mask Text Alignment Diffusion Model for Object Inpainting

jun huang, Ting Liu, Yihang Wu et al.

CVPR 2025arXiv:2506.23482

#5237

CARL: A Framework for Equivariant Image Registration

Hastings Greer, Lin Tian, François-Xavier Vialard et al.

CVPR 2025arXiv:2405.16738

#5238

Perceptual Inductive Bias Is What You Need Before Contrastive Learning

Junru Zhao, Tianqin Li, Dunhan Jiang et al.

CVPR 2025arXiv:2506.01201

#5239

ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect

Dachong Li, li li, zhuangzhuang chen et al.

CVPR 2025arXiv:2401.12736

#5240

AI-Face: A Million-Scale Demographically Annotated AI-Generated Face Dataset and Fairness Benchmark

Li Lin, Santosh Santosh, Mingyang Wu et al.

CVPR 2025arXiv:2406.00783

#5241

Reversing Flow for Image Restoration

Haina Qin, Wenyang Luo, Bing Li et al.

CVPR 2025arXiv:2506.16961

#5242

AeroGen: Enhancing Remote Sensing Object Detection with Diffusion-Driven Data Generation

Datao Tang, Xiangyong Cao, Xuan Wu et al.

CVPR 2025arXiv:2411.15497

#5243

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines

Chen Tang, Xinzhu Ma, Encheng Su et al.

CVPR 2025arXiv:2503.20748

#5244

Leveraging Perturbation Robustness to Enhance Out-of-Distribution Detection

Wenxi Chen, Raymond A. Yeh, Shaoshuai Mou et al.

CVPR 2025arXiv:2503.18784

#5245

PolarNeXt: Rethink Instance Segmentation with Polar Representation

Jiacheng Sun, Xinghong Zhou, Yiqiang Wu et al.

CVPR 2025arXiv:2503.12847

#5246

Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment

Chen Liu, Peike Li, Liying Yang et al.

#5247

RENO: Real-Time Neural Compression for 3D LiDAR Point Clouds

Kang You, Tong Chen, Dandan Ding et al.

CVPR 2025arXiv:2503.12382

#5248

Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

Huayang Huang, Xiangye Jin, Jiaxu Miao et al.

CVPR 2025arXiv:2504.01819

#5249

Quaffure: Real-Time Quasi-Static Neural Hair Simulation

Tuur Stuyck, Gene Wei-Chin Lin, Egor Larionov et al.

CVPR 2025arXiv:2412.10061

#5250

Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Shengqu Cai, Eric Ryan Chan, Yunzhi Zhang et al.

CVPR 2025arXiv:2411.18616

#5251

Label Shift Meets Online Learning: Ensuring Consistent Adaptation with Universal Dynamic Regret

Yucong Dai, Shilin Gu, Ruidong Fan et al.

CVPR 2025highlight

#5252

EnvPoser: Environment-aware Realistic Human Motion Estimation from Sparse Observations with Uncertainty Modeling

Songpengcheng Xia, Yu Zhang, Zhuo Su et al.

CVPR 2025arXiv:2412.10235

#5253

MaskGaussian: Adaptive 3D Gaussian Representation from Probabilistic Masks

Yifei Liu, Zhihang Zhong, Yifan Zhan et al.

CVPR 2025arXiv:2412.20522

#5254

Forensics Adapter: Adapting CLIP for Generalizable Face Forgery Detection

Xinjie Cui, Yuezun Li, Ao Luo et al.

CVPR 2025arXiv:2503.10437

#5255

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Wanhua Li, Renping Zhou, Jiawei Zhou et al.

#5256

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

Wenke Xia, Ruoxuan Feng, Dong Wang et al.

CVPR 2025arXiv:2504.14588

#5257

ROLL: Robust Noisy Pseudo-label Learning for Multi-View Clustering with Noisy Correspondence

Yuan Sun, Yongxiang Li, Zhenwen Ren et al.

CVPR 2025highlight

#5258

Co-Speech Gesture Video Generation with Implicit Motion-Audio Entanglement

Xinjie Li, Ziyi Chen, Xinlu Yu et al.

CVPR 2025arXiv:2410.13848

#5259

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Chengyue Wu, Xiaokang Chen, Zhiyu Wu et al.

#5260

FATE: Full-head Gaussian Avatar with Textural Editing from Monocular Video

Jiawei Zhang, Zijian Wu, Zhiyang Liang et al.

CVPR 2025arXiv:2411.15604

#5261

Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need

Qiang Wang, Xiang Song, Yuhang He et al.

CVPR 2025arXiv:2505.23744

#5262

Bridging Viewpoint Gaps: Geometric Reasoning Boosts Semantic Correspondence

Qiyang Qian, Hansheng Chen, Masayoshi Tomizuka et al.

CVPR 2024arXiv:2403.16412

#5263

Unsupervised Template-assisted Point Cloud Shape Correspondence Network

Jiacheng Deng, Jiahao Lu, Tianzhu Zhang

#5264

X-3D: Explicit 3D Structure Modeling for Point Cloud Recognition

Shuofeng Sun, Yongming Rao, Jiwen Lu et al.

CVPR 2024arXiv:2404.15010

#5265

Spectral and Polarization Vision: Spectro-polarimetric Real-world Dataset

Yujin Jeon, Eunsue Choi, Youngchan Kim et al.

CVPR 2024highlightarXiv:2311.17396

#5266

Efficient Model Stealing Defense with Noise Transition Matrix

Dong-Dong Wu, Chilin Fu, Weichang Wu et al.

#5267

HOIAnimator: Generating Text-prompt Human-object Animations using Novel Perceptive Diffusion Models

Wenfeng Song, Xinyu Zhang, Shuai Li et al.

CVPR 2024arXiv:2301.07868

#5268

MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval

bowen zhang, Xiaojie Jin, Weibo Gong et al.

#5269

SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model

Chunlin Yu, Hanqing Wang, Ye Shi et al.

CVPR 2025arXiv:2412.01550

#5270

Diffusion Models Without Attention

Jing Nathan Yan, Jiatao Gu, Alexander Rush

CVPR 2024arXiv:2311.18257

#5271

HDQMF: Holographic Feature Decomposition Using Quantum Algorithms

Prathyush Poduval, Zhuowen Zou, Mohsen Imani

CVPR 2024arXiv:2312.07920

#5272

DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes

Xiaoyu Zhou, Zhiwei Lin, Xiaojun Shan et al.

#5273

H-ViT: A Hierarchical Vision Transformer for Deformable Image Registration

Morteza Ghahremani, Mohammad Khateri, Bailiang Jian et al.

#5274

Asynchronous Collaborative Graph Representation for Frames and Events

Dianze Li, Jianing Li, Xu Liu et al.

#5275

Going Beyond Multi-Task Dense Prediction with Synergy Embedding Models

Huimin Huang, Yawen Huang, Lanfen Lin et al.

#5276

FLHetBench: Benchmarking Device and State Heterogeneity in Federated Learning

Junyuan Zhang, Shuang Zeng, Miao Zhang et al.

#5277

MR-VNet: Media Restoration using Volterra Networks

Siddharth Roheda, Amit Unde, Loay Rashid

CVPR 2024arXiv:2403.19128

#5278

OmniParser: A Unified Framework for Text Spotting Key Information Extraction and Table Recognition

Jianqiang Wan, Sibo Song, Wenwen Yu et al.

#5279

PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization

Xu Peng, Junwei Zhu, Boyuan Jiang et al.

CVPR 2024arXiv:2312.06354

#5280

Theory-Inspired Deep Multi-View Multi-Label Learning with Incomplete Views and Noisy Labels

Quanjiang Li, Tingjin Luo, Jiahui Liao

CVPR 2024arXiv:2404.02790

#5281

MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation

Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang et al.

#5282

Dr.Hair: Reconstructing Scalp-Connected Hair Strands without Pre-Training via Differentiable Rendering of Line Segments

Yusuke Takimoto, Hikari Takehara, Hiroyuki Sato et al.

CVPR 2024highlightarXiv:2403.17496

#5283

CroSel: Cross Selection of Confident Pseudo Labels for Partial-Label Learning

Shiyu Tian, Hongxin Wei, Yiqun Wang et al.

CVPR 2024arXiv:2303.10365

#5284

PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild

Kun Yuan, Hongbo Liu, Mading Li et al.

CVPR 2024arXiv:2405.17765

#5285

Move-in-2D: 2D-Conditioned Human Motion Generation

Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang et al.

CVPR 2025arXiv:2412.13185

#5286

Improved Self-Training for Test-Time Adaptation

Jing Ma

#5287

Mudslide: A Universal Nuclear Instance Segmentation Method

Jun Wang

CVPR 2025arXiv:2503.13947

#5288

Conformal Prediction and MLLM aided Uncertainty Quantification in Scene Graph Generation

Sayak Nag, Udita Ghosh, Calvin-Khang Ta et al.

#5289

Collaborative Learning of Anomalies with Privacy (CLAP) for Unsupervised Video Anomaly Detection: A New Baseline

Anas Al-lahham, Muhammad Zaigham Zaheer, Nurbek Tastan et al.

CVPR 2024arXiv:2404.00847

#5290

Improving Semi-Supervised Semantic Segmentation with Sliced-Wasserstein Feature Alignment and Uniformity

Chen Yi Lu, Kasra Derakhshandeh, Somali Chaterji

CVPR 2024arXiv:2312.03209

#5291

Cache Me if You Can: Accelerating Diffusion Models through Block Caching

Felix Wimbauer, Bichen Wu, Edgar Schoenfeld et al.

#5292

Rewrite the Stars

Xu Ma, Xiyang Dai, Yue Bai et al.

CVPR 2024arXiv:2403.19967

#5293

Hierarchical Adaptive Filtering Network for Text Image Specular Highlight Removal

Zhi Jiang, Jingbo Hu, Ling Zhang et al.

#5294

Virtual Immunohistochemistry Staining for Histological Images Assisted by Weakly-supervised Learning

Jiahan Li, Jiuyang Dong, Shenjin Huang et al.

CVPR 2025highlightarXiv:2505.01172

#5295

FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis

Jiangtong Tan, Hu Yu, Jie Huang et al.

#5296

3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features

Chenfeng Xu, Huan Ling, Sanja Fidler et al.

CVPR 2024arXiv:2311.04391

#5297

Model Adaptation for Time Constrained Embodied Control

Jaehyun Song, Minjong Yoo, Honguk Woo

CVPR 2024arXiv:2406.11128

#5298

HERA: Hybrid Explicit Representation for Ultra-Realistic Head Avatars

Hongrui Cai, Yuting Xiao, Xuan Wang et al.

CVPR 2024arXiv:2405.10185

#5299

DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data

Chengxiang Fan, Muzhi Zhu, Hao Chen et al.

#5300

SPAD: Spatially Aware Multi-View Diffusers

Yash Kant, Aliaksandr Siarohin, Ziyi Wu et al.

CVPR 2024arXiv:2405.18322

#5301

SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation

Kejia Yin, Varshanth Rao, Ruowei Jiang et al.

#5302

DiffPerformer: Iterative Learning of Consistent Latent Guidance for Diffusion-based Human Video Generation

Chenyang Wang, Zerong Zheng, Tao Yu et al.

CVPR 2024arXiv:2404.09502

#5303

SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction

Pin Tang, Zhongdao Wang, Guoqing Wang et al.

#5304

Beyond First-Order Tweedie: Solving Inverse Problems using Latent Diffusion

Litu Rout, Yujia Chen, Abhishek Kumar et al.

CVPR 2024arXiv:2312.00852

#5305

Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training

Arun Reddy, William Paul, Corban Rivera et al.

CVPR 2024arXiv:2312.02914

#5306

Dynamic Prompt Optimizing for Text-to-Image Generation

Wenyi Mo, Tianyu Zhang, Yalong Bai et al.

CVPR 2024arXiv:2404.04095

#5307

Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers

Haoran You, Connelly Barnes, Yuqian Zhou et al.

CVPR 2025arXiv:2412.16822

#5308

RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection

Zhiwei Lin, Zhe Liu, Zhongyu Xia et al.

CVPR 2024arXiv:2403.16440

#5309

FineParser: A Fine-grained Spatio-temporal Action Parser for Human-centric Action Quality Assessment

Jinglin Xu, Sibo Yin, Guohao Zhao et al.

CVPR 2024arXiv:2405.06887

#5310

SceneFun3D: Fine-Grained Functionality and Affordance Understanding in 3D Scenes

Alexandros Delitzas, Ayça Takmaz, Federico Tombari et al.

#5311

SGSST: Scaling Gaussian Splatting Style Transfer

Bruno Galerne, Jianling WANG, Lara Raad et al.

#5312

MAPLM: A Real-World Large-Scale Vision-Language Benchmark for Map and Traffic Scene Understanding

Xu Cao, Tong Zhou, Yunsheng Ma et al.

CVPR 2024arXiv:2401.05224

#5313

Do Vision and Language Encoders Represent the World Similarly?

Mayug Maniparambil, Raiymbek Akshulakov, YASSER ABDELAZIZ DAHOU DJILALI et al.

#5314

Unified Medical Lesion Segmentation via Self-referring Indicator

Shijie Chang, Xiaoqi Zhao, Lihe Zhang et al.

#5315

Weakly Supervised Point Cloud Semantic Segmentation via Artificial Oracle

Hyeokjun Kweon, Jihun Kim, Kuk-Jin Yoon

CVPR 2024arXiv:2312.01663

#5316

Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training

Runze He, Shaofei Huang, Xuecheng Nie et al.

#5317

Construct to Associate: Cooperative Context Learning for Domain Adaptive Point Cloud Segmentation

Guangrui Li

CVPR 2024arXiv:2312.09238

#5318

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

Hao Li, Xue Yang, Zhaokai Wang et al.

#5319

Wavelet-based Fourier Information Interaction with Frequency Diffusion Adjustment for Underwater Image Restoration

Chen Zhao, Weiling Cai, Chenyu Dong et al.

CVPR 2024arXiv:2311.16845

#5320

Generating Content for HDR Deghosting from Frequency View

Tao Hu, Qingsen Yan, Yuankai Qi et al.

CVPR 2024arXiv:2404.00849

#5321

Generative Modeling of Class Probability for Multi-Modal Representation Learning

JungKyoo Shin, Bumsoo Kim, Eunwoo Kim

CVPR 2025highlightarXiv:2503.17417

#5322

Direct2.5: Diverse Text-to-3D Generation via Multi-view 2.5D Diffusion

Yuanxun Lu, Jingyang Zhang, Shiwei Li et al.

CVPR 2024arXiv:2311.15980

#5323

Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transfomers

Sheng Yang, Jiawang Bai, Kuofeng Gao et al.

#5324

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding Reasoning and Planning

Sijin Chen, Xin Chen, Chi Zhang et al.

CVPR 2024arXiv:2312.04557

#5325

GenTron: Diffusion Transformers for Image and Video Generation

Shoufa Chen, Mengmeng Xu, Jiawei Ren et al.

#5326

Map-Relative Pose Regression for Visual Re-Localization

Shuai Chen, Tommaso Cavallari, Victor Adrian Prisacariu et al.

CVPR 2024highlightarXiv:2404.09884

#5327

Gradient-based Parameter Selection for Efficient Fine-Tuning

Zhi Zhang, Qizhe Zhang, Zijun Gao et al.

CVPR 2024arXiv:2312.10136

#5328

Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov et al.

CVPR 2024highlightarXiv:2402.14797

#5329

GRAE-3DMOT: Geometry Relation-Aware Encoder for Online 3D Multi-Object Tracking

Hyunseop Kim, Hyo-Jun Lee, Yonguk Lee et al.

CVPR 2024arXiv:2403.18442

#5330

Backpropagation-free Network for 3D Test-time Adaptation

YANSHUO WANG, Ali Cheraghian, Zeeshan Hayder et al.

#5331

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

Dai Shi

CVPR 2024arXiv:2311.17132

#5332

Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging

Bo Wang, Dingwei Tan, Yen-Ling Kuo et al.

CVPR 2025arXiv:2411.09176

#5333

RefPose: Leveraging Reference Geometric Correspondences for Accurate 6D Pose Estimation of Unseen Objects

Jaeguk Kim, Jaewoo Park, Keuntek Lee et al.

CVPR 2025arXiv:2505.10841

#5334

EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Priors

Zhipeng Hu, Minda Zhao, Chaoyi Zhao et al.

CVPR 2024arXiv:2308.13223

#5335

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

Zigang Geng, Binxin Yang, Tiankai Hang et al.

CVPR 2024arXiv:2309.03895

#5336

HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation

Linglin Jing, Yiming Ding, Yunpeng Gao et al.

CVPR 2024arXiv:2403.16788

#5337

Promptable Behaviors: Personalizing Multi-Objective Rewards from Human Preferences

Minyoung Hwang, Luca Weihs, Chanwoo Park et al.

CVPR 2024arXiv:2312.09337

#5338

Fourier Priors-Guided Diffusion for Zero-Shot Joint Low-Light Enhancement and Deblurring

Xiaoqian Lv, Shengping Zhang, Chenyang Wang et al.

CVPR 2024arXiv:2406.00699

#5339

Towards General Robustness Verification of MaxPool-based Convolutional Neural Networks via Tightening Linear Approximation

Yuan Xiao, Shiqing Ma, Juan Zhai et al.

#5340

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

Qifan Yu, Wei Chow, Zhongqi Yue et al.

CVPR 2025arXiv:2411.15738

#5341

RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail Richness in Text-to-3D

Lingteng Qiu, Guanying Chen, Xiaodong Gu et al.

CVPR 2024highlightarXiv:2311.16918

#5342

Navigating the Unseen: Zero-shot Scene Graph Generation via Capsule-Based Equivariant Features

Wenhuan Huang, Yi JI, guiqian zhu et al.

CVPR 2024arXiv:2403.07705

#5343

Robust Synthetic-to-Real Transfer for Stereo Matching

Jiawei Zhang, Jiahe Li, Lei Huang et al.

#5344

Non-Natural Image Understanding with Advancing Frequency-based Vision Encoders

Wang Lin, Qingsong Wang, Yueying Feng et al.

#5345

Understanding and Improving Source-free Domain Adaptation from a Theoretical Perspective

Yu Mitsuzumi, Akisato Kimura, Hisashi Kashima

CVPR 2024highlightarXiv:2304.00553

#5346

From Isolated Islands to Pangea: Unifying Semantic Space for Human Action Understanding

Yonglu Li, Xiaoqian Wu, Xinpeng Liu et al.

#5347

MeshArt: Generating Articulated Meshes with Structure-Guided Transformers

Daoyi Gao, Mohd Yawar Nihal Siddiqui, Lei Li et al.

CVPR 2025arXiv:2412.11596

#5348

Hunyuan-Portrait: Implicit Condition Control for Enhanced Portrait Animation

Zunnan Xu, Zhentao Yu, Zixiang Zhou et al.

CVPR 2025arXiv:2411.10189

#5349

NeISF++: Neural Incident Stokes Field for Polarized Inverse Rendering of Conductors and Dielectrics

Chenhao Li, Taishi Ono, Takeshi Uemori et al.

#5350

LowRankOcc: Tensor Decomposition and Low-Rank Recovery for Vision-based 3D Semantic Occupancy Prediction

Linqing Zhao, Xiuwei Xu, Ziwei Wang et al.

#5351

DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers

Mert Bülent Sarıyıldız, Philippe Weinzaepfel, Thomas Lucas et al.

CVPR 2024arXiv:2308.12462

#5352

Overcoming Generic Knowledge Loss with Selective Parameter Update

Wenxuan Zhang, Paul Janson, Rahaf Aljundi et al.

#5353

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

Hao Ouyang, Qiuyu Wang, Yuxi Xiao et al.

CVPR 2024highlightarXiv:2308.07926

#5354

Task-Aware Clustering for Prompting Vision-Language Models

Fusheng Hao, Fengxiang He, Fuxiang Wu et al.

CVPR 2024arXiv:2309.15785

#5355

BT-Adapter: Video Conversation is Feasible Without Video Instruction Tuning

Ruyang Liu, Chen Li, Yixiao Ge et al.

#5356

Video Frame Interpolation via Direct Synthesis with the Event-based Reference

Yuhan Liu, Yongjian Deng, Hao Chen et al.

CVPR 2024arXiv:2402.17172

#5357

Lane2Seq: Towards Unified Lane Detection via Sequence Generation

Kunyang Zhou

#5358

CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic Segmentation

Bo-Yuan Sun, Yuqi Yang, Le Zhang et al.

CVPR 2024arXiv:2306.04300

#5359

Rethinking Boundary Discontinuity Problem for Oriented Object Detection

Hang Xu, Xinyuan Liu, Haonan Xu et al.

CVPR 2024arXiv:2305.10061

#5360

Data-Free Group-Wise Fully Quantized Winograd Convolution via Learnable Scales

Shuokai Pan, Gerti Tuzi, Sudarshan Sreeram et al.

CVPR 2025arXiv:2412.19867

#5361

MCNet: Rethinking the Core Ingredients for Accurate and Efficient Homography Estimation

Haokai Zhu, Si-Yuan Cao, Jianxin Hu et al.

CVPR 2025arXiv:2504.08181

#5362

TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation

Ruineng Li, Daitao Xing, Huiming Sun et al.

#5363

Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning

Hairui Ren, Fan Tang, He Zhao et al.

CVPR 2025arXiv:2504.11930

#5364

BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis

Weiguang Zhao, Rui Zhang, Qiufeng Wang et al.

CVPR 2025arXiv:2503.12539

#5365

UniDepth: Universal Monocular Metric Depth Estimation

Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis et al.

CVPR 2024highlightarXiv:2403.18913

#5366

Diffusion Model Alignment Using Direct Preference Optimization

Bram Wallace, Meihua Dang, Rafael Rafailov et al.

CVPR 2024arXiv:2311.12908

#5367

SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching

Xinghui Li, Jingyi Lu, Kai Han et al.

CVPR 2024arXiv:2310.17569

#5368

Uncertainty-Guided Never-Ending Learning to Drive

Lei Lai, Eshed Ohn-Bar, Sanjay Arora et al.

#5369

Feedback-Guided Autonomous Driving

Jimuyang Zhang, Zanming Huang, Arijit Ray et al.

CVPR 2024highlightarXiv:2404.10242

#5370

Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology

Oren Kraus, Kian Kenyon-Dean, Saber Saberian et al.

#5371

Small Steps and Level Sets: Fitting Neural Surface Models with Point Guidance

Chamin Hewa Koneputugodage, Yizhak Ben-Shabat, Dylan Campbell et al.

#5372

Adapt or Perish: Adaptive Sparse Transformer with Attentive Feature Refinement for Image Restoration

Shihao Zhou, Duosheng Chen, Jinshan Pan et al.

CVPR 2024highlightarXiv:2403.01444

#5373

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

Jiakai Sun, Han Jiao, Guangyuan Li et al.

#5374

Activating Sparse Part Concepts for 3D Class Incremental Learning

Zhenya Tian, Jun Xiao, Liu lupeng et al.

#5375

LTM: Lightweight Textured Mesh Extraction and Refinement of Large Unbounded Scenes for Efficient Storage and Real-time Rendering

Jaehoon Choi, Rajvi Shah, Qinbo Li et al.

#5376

Model Diagnosis and Correction via Linguistic and Implicit Attribute Editing

Xuanbai Chen, Xiang Xu, Zhihua Li et al.

CVPR 2024arXiv:2403.18978

#5377

TextCraftor: Your Text Encoder Can be Image Quality Controller

Yanyu Li, Xian Liu, Anil Kag et al.

#5378

Geometry Transfer for Stylizing Radiance Fields

Hyunyoung Jung, Seonghyeon Nam, Nikolaos Sarafianos et al.

CVPR 2024arXiv:2402.00863

#5379

3D Human Pose Perception from Egocentric Stereo Videos

Hiroyasu Akada, Jian Wang, Vladislav Golyanik et al.

CVPR 2024highlightarXiv:2401.00889

#5380

Reducing Class-wise Confusion for Incremental Learning with Disentangled Manifolds

Huitong Chen, Yu Wang, Yan Fan et al.

CVPR 2025arXiv:2503.17677

#5381

QN-Mixer: A Quasi-Newton MLP-Mixer Model for Sparse-View CT Reconstruction

Ishak Ayad, Nicolas Larue, Mai K. Nguyen

CVPR 2024arXiv:2402.17951

#5382

Check Locate Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation

Biao Gong, Siteng Huang, Yutong Feng et al.

#5383

Prompt3D: Random Prompt Assisted Weakly-Supervised 3D Object Detection

Xiaohong Zhang, Huisheng Ye, Jingwen Li et al.

CVPR 2025arXiv:2503.01115

#5384

WeGen: A Unified Model for Interactive Multimodal Generation as We Chat

Zhipeng Huang, Shaobin Zhuang, Canmiao Fu et al.

#5385

PS-EIP: Robust Photometric Stereo Based on Event Interval Profile

Kazuma Kitazawa, Takahito Aoto, Satoshi Ikehata et al.

CVPR 2025arXiv:2503.18341

#5386

Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation

Keonhee Han, Dominik Muhle, Felix Wimbauer et al.

CVPR 2024arXiv:2404.07933

#5387

Geometry Field Splatting with Gaussian Surfels

Kaiwen Jiang, Venkataram Sivaram, Cheng Peng et al.

CVPR 2025arXiv:2411.17067

#5388

Volumetric Environment Representation for Vision-Language Navigation

Liu, Wenguan Wang, Yi Yang

CVPR 2024highlightarXiv:2403.14158

#5389

CrossKD: Cross-Head Knowledge Distillation for Object Detection

JiaBao Wang, yuming chen, Zhaohui Zheng et al.

CVPR 2024arXiv:2306.11369

#5390

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

Jiaming Liu, Ran Xu, Senqiao Yang et al.

CVPR 2024arXiv:2312.12480

#5391

TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing

Sherry X. Chen, Yaron Vaxman, Elad Ben Baruch et al.

CVPR 2024arXiv:2404.11120

#5392

Leveraging Camera Triplets for Efficient and Accurate Structure-from-Motion

Lalit Manam, Venu Madhav Govindu

CVPR 2024arXiv:2311.16097

#5393

CG-HOI: Contact-Guided 3D Human-Object Interaction Generation

Christian Diller, Angela Dai

#5394

Three-view Focal Length Recovery From Homographies

Yaqing Ding, Viktor Kocur, Zuzana Berger Haladova et al.

CVPR 2025arXiv:2501.07499

#5395

Plug-and-Play Versatile Compressed Video Enhancement

Huimin Zeng, Jiacheng Li, Zhiwei Xiong

CVPR 2025arXiv:2504.15380

#5396

Is Vanilla MLP in Neural Radiance Field Enough for Few-shot View Synthesis?

Hanxin Zhu, Tianyu He, Xin Li et al.

CVPR 2024arXiv:2403.06092

#5397

Resurrecting Old Classes with New Data for Exemplar-Free Continual Learning

Dipam Goswami, Albin Soutif, Yuyang Liu et al.

CVPR 2024arXiv:2405.19074

#5398

DIEM: Decomposition-Integration Enhancing Multimodal Insights

Xinyi Jiang, Guoming Wang, Junhao Guo et al.

CVPR 2024arXiv:2403.11549

#5399

Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters

Jiazuo Yu, Yunzhi Zhuge, Lu Zhang et al.

#5400

HOI-M^3: Capture Multiple Humans and Objects Interaction within Contextual Environment

Juze Zhang, Jingyan Zhang, Zining Song et al.