Most Cited CVPR &quot;neural network robustness&quot; Papers

CVPR 2024posterarXiv:2305.11443

#5402

Equivariant Multi-Modality Image Fusion

Zixiang Zhao, Haowen Bai, Jiangshe Zhang et al.

#5403

SynthLight: Portrait Relighting with Diffusion Model by Learning to Re-render Synthetic Faces

Sumit Chaturvedi, Mengwei Ren, Yannick Hold-Geoffroy et al.

CVPR 2025posterarXiv:2501.09756

#5404

PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation

Jinfeng Xu, Siyuan Yang, Xianzhi Li et al.

CVPR 2024posterarXiv:2404.00979

#5405

NeISF: Neural Incident Stokes Field for Geometry and Material Estimation

Chenhao Li, Taishi Ono, Takeshi Uemori et al.

CVPR 2024highlightarXiv:2311.13187

#5406

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models

Zheng Li, Xiang Li, xinyi fu et al.

CVPR 2024posterarXiv:2403.02781

#5407

Visual Representation Learning through Causal Intervention for Controllable Image Editing

Shanshan Huang, Haoxuan Li, Chunyuan Zheng et al.

CVPR 2025highlight

#5408

DeMatch: Deep Decomposition of Motion Field for Two-View Correspondence Learning

Shihua Zhang, Zizhuo Li, Yuan Gao et al.

#5409

Dynamic Content Prediction with Motion-aware Priors for Blind Face Video Restoration

Lianxin Xie, csbingbing zheng, Si Wu et al.

CVPR 2025posterarXiv:2411.02818

#5410

LiVOS: Light Video Object Segmentation with Gated Linear Matching

Qin Liu, Jianfeng Wang, Zhengyuan Yang et al.

#5411

Domain Gap Embeddings for Generative Dataset Augmentation

Yinong Oliver Wang, Younjoon Chung, Chen Henry Wu et al.

CVPR 2024posterarXiv:2403.02899

#5412

Domain-Agnostic Mutual Prompting for Unsupervised Domain Adaptation

Zhekai Du, Xinyao Li, Fengling Li et al.

#5413

TransLoc4D: Transformer-based 4D Radar Place Recognition

Guohao Peng, Heshan Li, Yangyang Zhao et al.

#5414

Higher-order Relational Reasoning for Pedestrian Trajectory Prediction

Sungjune Kim, Hyung-gun Chi, Hyerin Lim et al.

CVPR 2024posterarXiv:2408.06747

#5415

Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation

Jingyun Wang, Guoliang Kang

#5416

Leveraging Vision-Language Models for Improving Domain Generalization in Image Classification

Sravanti Addepalli, Ashish Asokan, Lakshay Sharma et al.

CVPR 2024posterarXiv:2310.08255

#5417

Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency

Feng Wang, Timing Yang, Yaodong Yu et al.

CVPR 2025posterarXiv:2410.07599

#5418

Absolute Pose from One or Two Scaled and Oriented Features

Jonathan Ventura, Zuzana Kukelova, Torsten Sattler et al.

#5419

Draw Step by Step: Reconstructing CAD Construction Sequences from Point Clouds via Multimodal Diffusion.

Weijian Ma, Shuaiqi Chen, Yunzhong Lou et al.

CVPR 2024posterarXiv:2403.14886

#5420

DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation

Zeeshan Hayder, Xuming He

#5421

CryptoFace: End-to-End Encrypted Face Recognition

Wei Ao, Vishnu Naresh Boddeti

CVPR 2025posterarXiv:2509.00332

#5422

Open-Vocabulary 3D Semantic Segmentation with Foundation Models

Li Jiang, Shaoshuai Shi, Bernt Schiele

#5423

Training Vision Transformers for Semi-Supervised Semantic Segmentation

Xinting Hu, Li Jiang, Bernt Schiele

CVPR 2024posterarXiv:2406.08372

#5424

APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation

Weizhao He, Yang Zhang, Wei Zhuo et al.

#5425

FLAIR: VLM with Fine-grained Language-informed Image Representations

Rui Xiao, Sanghwan Kim, Iuliana Georgescu et al.

CVPR 2025posterarXiv:2412.03561

#5426

SVDC: Consistent Direct Time-of-Flight Video Depth Completion with Frequency Selective Fusion

Xuan Zhu, Jijun Xiang, Xianqi Wang et al.

CVPR 2025posterarXiv:2503.01257

#5427

Design2Cloth: 3D Cloth Generation from 2D Masks

Jiali Zheng, Rolandos Alexandros Potamias, Stefanos Zafeiriou

CVPR 2024posterarXiv:2404.02686

#5428

S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic Scenes

Xingyi Li, Zhiguo Cao, Yizheng Wu et al.

CVPR 2024posterarXiv:2403.06205

#5429

SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation

Aysim Toker, Marvin Eisenberger, Daniel Cremers et al.

CVPR 2024posterarXiv:2403.16605

#5430

Dual-Consistency Model Inversion for Non-Exemplar Class Incremental Learning

Zihuan Qiu, Yi Xu, Fanman Meng et al.

CVPR 2024posterarXiv:2403.15679

#5431

DS-NeRV: Implicit Neural Video Representation with Decomposed Static and Dynamic Codes

Hao Yan, Zhihui Ke, Xiaobo Zhou et al.

#5432

Rolling Shutter Correction with Intermediate Distortion Flow Estimation

Mingdeng Cao, Sidi Yang, Yujiu Yang et al.

CVPR 2024posterarXiv:2404.06350

#5433

Towards Transferable Targeted 3D Adversarial Attack in the Physical World

Yao Huang, Yinpeng Dong, Shouwei Ruan et al.

CVPR 2024posterarXiv:2312.09558

#5434

Hybrid Functional Maps for Crease-Aware Non-Isometric Shape Matching

Lennart Bastian, Yizheng Xie, Nassir Navab et al.

CVPR 2024posterarXiv:2312.03678

#5435

Class Tokens Infusion for Weakly Supervised Semantic Segmentation

Sung-Hoon Yoon, Hoyong Kwon, Hyeonseong Kim et al.

CVPR 2024posterarXiv:2403.15192

#5436

SFOD: Spiking Fusion Object Detector

Yimeng Fan, Wei Zhang, Changsong Liu et al.

#5437

AnyDoor: Zero-shot Object-level Image Customization

Xi Chen, Lianghua Huang, Yu Liu et al.

CVPR 2024posterarXiv:2307.09481

#5438

GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs

Gege Gao, Weiyang Liu, Anpei Chen et al.

CVPR 2024posterarXiv:2312.00093

#5439

SeD: Semantic-Aware Discriminator for Image Super-Resolution

Bingchen Li, Xin Li, Hanxin Zhu et al.

CVPR 2024posterarXiv:2402.19387

#5440

InstanceDiffusion: Instance-level Control for Image Generation

XuDong Wang, Trevor Darrell, Sai Saketh Rambhatla et al.

CVPR 2024posterarXiv:2402.03290

#5441

Robust Emotion Recognition in Context Debiasing

Dingkang Yang, Kun Yang, Mingcheng Li et al.

CVPR 2024posterarXiv:2403.05963

#5442

Improving Training Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architecture

Huijie Zhang, Yifu Lu, Ismail Alkhouri et al.

CVPR 2024posterarXiv:2402.18206

#5443

Balancing Act: Distribution-Guided Debiasing in Diffusion Models

Rishubh Parihar, Abhijnya Bhat, Abhipsa Basu et al.

#5444

Sieve: Multimodal Dataset Pruning using Image Captioning Models

Anas Mahmoud, Mostafa Elhoushi, Amro Abbas et al.

CVPR 2024posterarXiv:2310.02110

#5445

Not All Voxels Are Equal: Hardness-Aware Semantic Scene Completion with Self-Distillation

Song Wang, Jiawei Yu, Wentong Li et al.

CVPR 2024posterarXiv:2404.11958

#5446

Neuro-3D: Towards 3D Visual Decoding from EEG Signals

Zhanqiang Guo, Jiamin Wu, Yonghao Song et al.

CVPR 2025posterarXiv:2411.12248

#5447

Towards Fairness-Aware Adversarial Learning

Yanghao Zhang, Tianle Zhang, Ronghui Mu et al.

CVPR 2024posterarXiv:2402.17729

#5448

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge

Andong Wang, Bo Wu, Sunli Chen et al.

CVPR 2024posterarXiv:2405.09713

#5449

MuRF: Multi-Baseline Radiance Fields

Haofei Xu, Anpei Chen, Yuedong Chen et al.

CVPR 2024posterarXiv:2312.04565

#5450

Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans

Romain Loiseau, Elliot Vincent, Mathieu Aubry et al.

CVPR 2024posterarXiv:2304.09704

#5451

Hide in Thicket: Generating Imperceptible and Rational Adversarial Perturbations on 3D Point Clouds

Tianrui Lou, Xiaojun Jia, Jindong Gu et al.

CVPR 2024posterarXiv:2403.05247

#5452

Efficient Transfer Learning for Video-language Foundation Models

Haoxing Chen, Zizheng Huang, Yan Hong et al.

CVPR 2025posterarXiv:2411.11223

#5453

PIGEON: Predicting Image Geolocations

Lukas Haas, Michal Skreta, Silas Alberti et al.

CVPR 2024highlightarXiv:2307.05845

#5454

JoAPR: Cleaning the Lens of Prompt Learning for Vision-Language Models

YUNCHENG GUO, Xiaodong Gu

CVPR 2024posterarXiv:2401.00789

#5455

Retrieval-Augmented Egocentric Video Captioning

Jilan Xu, Yifei Huang, Junlin Hou et al.

#5456

GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors

Yuan Dong, Qi Zuo, Xiaodong Gu et al.

CVPR 2024posterarXiv:2404.17184

#5457

Low-Rank Knowledge Decomposition for Medical Foundation Models

Yuhang Zhou, Haolin li, Siyuan Du et al.

#5458

Pixel-level Semantic Correspondence through Layout-aware Representation Learning and Multi-scale Matching Integration

Yixuan Sun, Zhangyue Yin, Haibo Wang et al.

CVPR 2025posterarXiv:2412.12463

#5459

Pattern Analogies: Learning to Perform Programmatic Image Edits by Analogy

Aditya Ganeshan, Thibault Groueix, Paul Guerrero et al.

#5460

View From Above: Orthogonal-View aware Cross-view Localization

Shan Wang, Chuong Nguyen, Jiawei Liu et al.

CVPR 2024posterarXiv:2404.03635

#5461

WorDepth: Variational Language Prior for Monocular Depth Estimation

Ziyao Zeng, Hyoungseob Park, Fengyu Yang et al.

#5462

Event-assisted Low-Light Video Object Segmentation

Li Hebei, Jin Wang, Jiahui Yuan et al.

CVPR 2024posterarXiv:2404.01945

#5463

3DToonify: Creating Your High-Fidelity 3D Stylized Avatar Easily from 2D Portrait Images

Yifang Men, Hanxi Liu, Yuan Yao et al.

#5464

Synthesize Diagnose and Optimize: Towards Fine-Grained Vision-Language Understanding

Wujian Peng, Sicheng Xie, Zuyao You et al.

CVPR 2024posterarXiv:2312.16170

#5465

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

Tai Wang, Xiaohan Mao, Chenming Zhu et al.

#5466

SCAP: Transductive Test-Time Adaptation via Supportive Clique-based Attribute Prompting

Chenyu Zhang, Kunlun Xu, Zichen Liu et al.

CVPR 2025posterarXiv:2503.12866

#5467

DIOD: Self-Distillation Meets Object Discovery

Sandra Kara, Hejer AMMAR, Julien Denize et al.

CVPR 2025highlightarXiv:2506.03605

#5468

Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision

Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura et al.

#5469

FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models

LIn Zhao, Tianchen Zhao, Zinan Lin et al.

CVPR 2024posterarXiv:2403.16379

#5470

COLMAP-Free 3D Gaussian Splatting

Yang Fu, Sifei Liu, Amey Kulkarni et al.

CVPR 2024highlightarXiv:2312.07504

#5471

SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model

Zhengang Li, Yan Kang, Yuchen Liu et al.

CVPR 2024posterarXiv:2406.00195

#5472

Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception

ruotian peng, Haiying He, Yake Wei et al.

CVPR 2025posterarXiv:2504.06666

#5473

Personalized Residuals for Concept-Driven Text-to-Image Generation

Cusuh Ham, Matthew Fisher, James Hays et al.

CVPR 2024posterarXiv:2405.12978

#5474

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

Seokju Cho, Heeseong Shin, Sunghwan Hong et al.

CVPR 2024highlightarXiv:2303.11797

#5475

Harnessing Global-Local Collaborative Adversarial Perturbation for Anti-Customization

Long Xu, Jiakai Wang, Haojie Hao et al.

#5476

Plug-and-Play PPO: An Adaptive Point Prompt Optimizer Making SAM Greater

Xueyu Liu, Rui Wang, Yexin Lai et al.

CVPR 2024posterarXiv:2403.15139

#5477

Deep Generative Model based Rate-Distortion for Image Downscaling Assessment

yuanbang liang, Bhavesh Garg, Paul L. Rosin et al.

#5478

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

Yanbo Wang, Jiyang Guan, Jian Liang et al.

CVPR 2025posterarXiv:2504.10000

#5479

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

Jingshun Huang, Haitao Lin, Tianyu Wang et al.

CVPR 2025highlightarXiv:2504.11230

#5480

Forecasting of 3D Whole-body Human Poses with Grasping Objects

yan haitao, Qiongjie Cui, Jiexin Xie et al.

CVPR 2024highlightarXiv:2312.00057

#5481

VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models

Xiang Li, Qianli Shen, Kenji Kawaguchi

#5482

PIE-NeRF: Physics-based Interactive Elastodynamics with NeRF

Yutao Feng, Yintong Shang, Xuan Li et al.

CVPR 2024posterarXiv:2311.13099

#5483

SNI-SLAM: Semantic Neural Implicit SLAM

Siting Zhu, Guangming Wang, Hermann Blum et al.

CVPR 2024posterarXiv:2311.11016

#5484

Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds

Mohamed Abdelsamad, Michael Ulrich, Claudius Glaeser et al.

CVPR 2025posterarXiv:2502.20316

#5485

Edge-Aware 3D Instance Segmentation Network with Intelligent Semantic Prior

Wonseok Roh, Hwanhee Jung, Giljoo Nam et al.

CVPR 2025posterarXiv:2411.03239

#5486

Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution

Huan Zheng, Wencheng Han, Jianbing Shen

#5487

TextureDreamer: Image-Guided Texture Synthesis Through Geometry-Aware Diffusion

Yu-Ying Yeh, Jia-Bin Huang, Changil Kim et al.

CVPR 2024posterarXiv:2401.09416

#5488

MAFA: Managing False Negatives for Vision-Language Pre-training

Jaeseok Byun, Dohoon Kim, Taesup Moon

CVPR 2024posterarXiv:2312.06112

#5489

Blur2Blur: Blur Conversion for Unsupervised Image Deblurring on Unknown Domains

Bang-Dang Pham, Phong Tran, Anh Tran et al.

CVPR 2024posterarXiv:2403.16205

#5490

RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion Models

Ozgur Kara, Bariscan Kurtkaya, Hidir Yesiltepe et al.

CVPR 2024highlightarXiv:2312.04524

#5491

ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for Autonomous Vehicles

Jiawei Zhang, Chejian Xu, Bo Li

CVPR 2024posterarXiv:2405.14062

#5492

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Jielin Qiu, Jiacheng Zhu, William Han et al.

CVPR 2024highlightarXiv:2306.04216

#5493

SVFR: A Unified Framework for Generalized Video Face Restoration

Zhiyao Wang, Xu Chen, Chengming Xu et al.

CVPR 2025posterarXiv:2501.01235

#5494

Generalizable Novel-View Synthesis using a Stereo Camera

Haechan Lee, Wonjoon Jin, Seung-Hwan Baek et al.

CVPR 2024posterarXiv:2404.13541

#5495

Learning Structure-from-Motion with Graph Attention Networks

Lucas Brynte, José Pedro Iglesias, Carl Olsson et al.

CVPR 2024posterarXiv:2308.15984

#5496

Don’t Drop Your Samples! Coherence-Aware Training Benefits Conditional Diffusion

Nicolas Dufour, Victor Besnier, Vicky Kalogeiton et al.

CVPR 2025posterarXiv:2411.14723

#5497

Effective SAM Combination for Open-Vocabulary Semantic Segmentation

Minhyeok Lee, Suhwan Cho, Jungho Lee et al.

#5498

SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

Peng Qi, Zehong Yan, Wynne Hsu et al.

CVPR 2024posterarXiv:2403.03170

#5499

Spatial-Aware Regression for Keypoint Localization

Dongkai Wang, Shiliang Zhang

CVPR 2024posterarXiv:2311.17948

#5500

Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes

Chi-Hsi Kung, 書緯呂, Yi-Hsuan Tsai et al.

#5501

Diff-BGM: A Diffusion Model for Video Background Music Generation

Sizhe Li, Yiming Qin, Minghang Zheng et al.

CVPR 2024posterarXiv:2405.11913

#5502

ArtAdapter: Text-to-Image Style Transfer using Multi-Level Style Encoder and Explicit Adaptation

Dar-Yen Chen, Hamish Tennent, Ching-Wen Hsu

CVPR 2024posterarXiv:2312.02109

#5503

EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars

Nikita Drobyshev, Antoni Bigata Casademunt, Konstantinos Vougioukas et al.

CVPR 2024posterarXiv:2404.19110

#5504

Shadow-Enlightened Image Outpainting

Hang Yu, Ruilin Li, Shaorong Xie et al.

CVPR 2024posterarXiv:2404.01998

#5505

Specularity Factorization for Low-Light Enhancement

Saurabh Saini, P. J. Narayanan

#5506

Latent Modulated Function for Computational Optimal Continuous Image Representation

Zongyao He, Zhi Jin

CVPR 2024highlightarXiv:2404.16451

#5507

A Unified Approach to Interpreting Self-supervised Pre-training Methods for 3D Point Clouds via Interactions

Qiang Li, Jian Ruan, Fanghao Wu et al.

CVPR 2025highlight

#5508

Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation

Jiapeng Su, Qi Fan, Wenjie Pei et al.

CVPR 2024posterarXiv:2404.10322

#5509

Shallow-Deep Collaborative Learning for Unsupervised Visible-Infrared Person Re-Identification

Bin Yang, Jun Chen, Mang Ye

CVPR 2024posterarXiv:2202.04291

#5510

L2B: Learning to Bootstrap Robust Models for Combating Label Noise

Yuyin Zhou, Xianhang li, Fengze Liu et al.

#5511

Open Set Label Shift with Test Time Out-of-Distribution Reference

Changkun Ye, Russell Tsuchida, Lars Petersson et al.

CVPR 2025posterarXiv:2505.05868

#5512

OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

Guan Wang, Zhimin Li, Qingchao Chen et al.

CVPR 2024posterarXiv:2405.16925

#5513

SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis

Ziqiao Peng, Wentao Hu, Yue Shi et al.

CVPR 2024posterarXiv:2311.17590

#5514

Attack To Defend: Exploiting Adversarial Attacks for Detecting Poisoned Models

Samar Fares, Karthik Nandakumar

CVPR 2024posterarXiv:2402.18842

#5515

ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

Xianghui Yang, Gil Avraham, Yan Zuo et al.

#5516

D3still: Decoupled Differential Distillation for Asymmetric Image Retrieval

Yi Xie, Yihong Lin, Wenjie Cai et al.

#5517

LiDAR-Net: A Real-scanned 3D Point Cloud Dataset for Indoor Scenes

Yanwen Guo, Yuanqi Li, Dayong Ren et al.

CVPR 2024posterarXiv:2403.04700

#5518

Delving into the Trajectory Long-tail Distribution for Muti-object Tracking

Sijia Chen, En Yu, Jinyang Li et al.

#5519

Dynamic Motion Blending for Versatile Motion Editing

Nan Jiang, Hongjie Li, Ziye Yuan et al.

CVPR 2025posterarXiv:2503.20724

#5520

Non-autoregressive Sequence-to-Sequence Vision-Language Models

Kunyu Shi, Qi Dong, Luis Goncalves et al.

CVPR 2024posterarXiv:2403.02249

#5521

No More Ambiguity in 360° Room Layout via Bi-Layout Estimation

Yu-Ju Tsai, Jin-Cheng Jhang, JINGJING ZHENG et al.

CVPR 2024posterarXiv:2404.09993

#5522

MTLoRA: Low-Rank Adaptation Approach for Efficient Multi-Task Learning

Ahmed Agiza, Marina Neseem, Sherief Reda

CVPR 2024posterarXiv:2403.02769

#5523

HUNTER: Unsupervised Human-centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real Scenes

Yichen Yao, Zimo Jiang, YUJING SUN et al.

#5524

Streaming Dense Video Captioning

Xingyi Zhou, Anurag Arnab, Shyamal Buch et al.

CVPR 2024posterarXiv:2404.01297

#5525

3D LiDAR Mapping in Dynamic Environments using a 4D Implicit Neural Representation

Xingguang Zhong, Yue Pan, Cyrill Stachniss et al.

CVPR 2024posterarXiv:2405.03388

#5526

PDFactor: Learning Tri-Perspective View Policy Diffusion Field for Multi-Task Robotic Manipulation

Jingyi Tian, Le Wang, Sanping Zhou et al.

CVPR 2024posterarXiv:2311.12754

#5527

SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction

Yuanhui Huang, Wenzhao Zheng, Borui Zhang et al.

#5528

On the Scalability of Diffusion-based Text-to-Image Generation

Hao Li, Yang Zou, Ying Wang et al.

CVPR 2024posterarXiv:2404.02883

#5529

Bootstrapping Autonomous Driving Radars with Self-Supervised Learning

Yiduo Hao, Sohrab Madani, Junfeng Guan et al.

CVPR 2024posterarXiv:2312.04519

#5530

Analyzing and Improving the Training Dynamics of Diffusion Models

Tero Karras, Miika Aittala, Jaakko Lehtinen et al.

CVPR 2024posterarXiv:2312.02696

#5531

DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaptation by Combining 3D GANs and Diffusion Priors

Biwen Lei, Kai Yu, Mengyang Feng et al.

CVPR 2024posterarXiv:2312.16837

#5532

OneLLM: One Framework to Align All Modalities with Language

Jiaming Han, Kaixiong Gong, Yiyuan Zhang et al.

CVPR 2024posterarXiv:2312.03700

#5533

LAFS: Landmark-based Facial Self-supervised Learning for Face Recognition

Zhonglin Sun, Chen Feng, Ioannis Patras et al.

CVPR 2024posterarXiv:2403.08161

#5534

Building Vision Models upon Heat Conduction

Zhaozhi Wang, Yue Liu, Yunjie Tian et al.

CVPR 2025posterarXiv:2405.16555

#5535

See Say and Segment: Teaching LMMs to Overcome False Premises

Tsung-Han Wu, Giscard Biamby, David Chan et al.

#5536

Incomplete Multi-View Multi-label Learning via Disentangled Representation and Label Semantic Embedding

Xu Yan, Jun Yin, Jie Wen

CVPR 2025posterarXiv:2503.15931

#5537

DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables

Sidi Yang, Binxiao Huang, Yulun Zhang et al.

#5538

PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models

Fei Deng, Qifei Wang, Wei Wei et al.

CVPR 2024posterarXiv:2402.08714

#5539

Groupwise Query Specialization and Quality-Aware Multi-Assignment for Transformer-based Visual Relationship Detection

Jongha Kim, Jihwan Park, Jinyoung Park et al.

CVPR 2024posterarXiv:2403.17709

#5540

MMVP: A Multimodal MoCap Dataset with Vision and Pressure Sensors

He Zhang, Shenghao Ren, Haolei Yuan et al.

CVPR 2024posterarXiv:2403.17610

#5541

SD2Event:Self-supervised Learning of Dynamic Detectors and Contextual Descriptors for Event Cameras

Yuan Gao, Yuqing Zhu, Xinjun Li et al.

#5542

Tuning Stable Rank Shrinkage: Aiming at the Overlooked Structural Risk in Fine-tuning

Sicong Shen, Yang Zhou, Bingzheng Wei et al.

CVPR 2024posterarXiv:2404.00874

#5543

DiSR-NeRF: Diffusion-Guided View-Consistent Super-Resolution NeRF

Jie Long Lee, Chen Li, Gim Hee Lee

#5544

Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications

Junyi Ma, Xieyuanli Chen, Jiawei Huang et al.

CVPR 2024posterarXiv:2311.17663

#5545

CocoER: Aligning Multi-Level Feature by Competition and Coordination for Emotion Recognition

Xuli Shen, Hua Cai, Weilin Shen et al.

CVPR 2024posterarXiv:2311.17117

#5546

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

Li Hu

#5547

Relightable and Animatable Neural Avatar from Sparse-View Video

Zhen Xu, Sida Peng, Chen Geng et al.

CVPR 2024highlightarXiv:2308.07903

#5548

Objects as Volumes: A Stochastic Geometry View of Opaque Solids

Bailey Miller, Hanyu Chen, Alice Lai et al.

CVPR 2024posterarXiv:2312.15406

#5549

Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose Estimation

Xiao Lin, Wenfei Yang, Yuan Gao et al.

CVPR 2024posterarXiv:2403.19527

#5550

Brain-Inspired Spiking Neural Networks for Energy-Efficient Object Detection

Ziqi Li, Tao Gao, Yisheng An et al.

#5551

PaReNeRF: Toward Fast Large-scale Dynamic NeRF with Patch-based Reference

Xiao Tang, Min Yang, Penghui Sun et al.

CVPR 2025posterarXiv:2403.18886

#5552

Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning

Huiyi Wang, Haodong Lu, Lina Yao et al.

#5553

PointSR: Self-Regularized Point Supervision for Drone-View Object Detection

Weizhuo Li, Yue Xi, Wenjing Jia et al.

#5554

PostureHMR: Posture Transformation for 3D Human Mesh Recovery

Yu-Pei Song, Xiao WU, Zhaoquan Yuan et al.

CVPR 2024posterarXiv:2403.09093

#5555

Desigen: A Pipeline for Controllable Design Template Generation

Haohan Weng, Danqing Huang, YU QIAO et al.

#5556

WANDR: Intention-guided Human Motion Generation

Markos Diomataris, Nikos Athanasiou, Omid Taheri et al.

CVPR 2024posterarXiv:2404.15383

#5557

WWW: A Unified Framework for Explaining What Where and Why of Neural Networks by Interpretation of Neuron Concepts

Yong Hyun Ahn, Hyeon Bae Kim, Seong Tae Kim

CVPR 2024posterarXiv:2402.18956

#5558

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

Minkuk Kim, Hyeon Bae Kim, Jinyoung Moon et al.

CVPR 2024posterarXiv:2404.07610

#5559

Rich Human Feedback for Text-to-Image Generation

Youwei Liang, Junfeng He, Gang Li et al.

CVPR 2024posterarXiv:2312.10240

#5560

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Jianzong Wu, Chao Tang, Jingbo Wang et al.

CVPR 2025posterarXiv:2412.07589

#5561

Dr. Bokeh: DiffeRentiable Occlusion-aware Bokeh Rendering

Yichen Sheng, Zixun Yu, Lu Ling et al.

CVPR 2024posterarXiv:2312.16272

#5562

SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation

Yuxuan Zhang, Yiren Song, Jiaming Liu et al.

#5563

SwitchLight: Co-design of Physics-driven Architecture and Pre-training Framework for Human Portrait Relighting

Hoon Kim, Minje Jang, Wonjun Yoon et al.

CVPR 2024highlightarXiv:2402.18848

#5564

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

Shuyang Sun, Runjia Li, Philip H.S. Torr et al.

CVPR 2024posterarXiv:2312.07661

#5565

Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition

Yuchen Zhou, Linkai Liu, Chao Gou

#5566

Super-Resolution Reconstruction from Bayer-Pattern Spike Streams

Yanchen Dong, Ruiqin Xiong, Jian Zhang et al.

CVPR 2024highlightarXiv:2406.07480

#5567

Image Neural Field Diffusion Models

Yinbo Chen, Oliver Wang, Richard Zhang et al.

#5568

AniDoc: Animation Creation Made Easier

Yihao Meng, Hao Ouyang, Hanlin Wang et al.

CVPR 2025posterarXiv:2412.14173

#5569

Denoising Point Clouds in Latent Space via Graph Convolution and Invertible Neural Network

Aihua Mao, Biao Yan, Zijing Ma et al.

CVPR 2024posterarXiv:2402.04476

#5570

Dual-View Visual Contextualization for Web Navigation

Jihyung Kil, Chan Hee Song, Boyuan Zheng et al.

#5571

Camouflage Anything: Learning to Hide using Controlled Out-painting and Representation Engineering

Biplab Das, Viswanath Gopalakrishnan

CVPR 2024posterarXiv:2312.03502

#5572

Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation

Haojie Zhang, Yongyi Su, Xun Xu et al.

#5573

Language-guided Image Reflection Separation

Haofeng Zhong, Yuchen Hong, Shuchen Weng et al.

CVPR 2024posterarXiv:2402.11874

#5574

SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation

Thuan Nguyen, Anh Tran

CVPR 2024posterarXiv:2312.05239

#5575

Looking 3D: Anomaly Detection with 2D-3D Alignment

Ankan Kumar Bhunia, Changjian Li, Hakan Bilen

CVPR 2024posterarXiv:2406.19393

#5576

EventPS: Real-Time Photometric Stereo Using an Event Camera

Bohan Yu, Jieji Ren, Jin Han et al.

CVPR 2024highlightarXiv:2312.02190

#5577

Diffusion Handles Enabling 3D Edits for Diffusion Models by Lifting Activations to 3D

Karran Pandey, Paul Guerrero, Matheus Gadelha et al.

#5578

Circuit Design and Efficient Simulation of Quantum Inner Product and Empirical Studies of Its Effect on Near-Term Hybrid Quantum-Classic Machine Learning

Hao Xiong, Yehui Tang, Xinyu Ye et al.

CVPR 2024posterarXiv:2405.00181

#5579

Uncovering What Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly

Hang Du, Sicheng Zhang, Binzhu Xie et al.

#5580

Leveraging Temporal Cues for Semi-Supervised Multi-View 3D Object Detection

Jinhyung Park, Navyata Sanghvi, Hiroki Adachi et al.

CVPR 2024posterarXiv:2303.12790

#5581

CrowdDiff: Multi-hypothesis Crowd Density Estimation using Diffusion Models

Yasiru Ranasinghe, Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara et al.

#5582

PSDPM: Prototype-based Secondary Discriminative Pixels Mining for Weakly Supervised Semantic Segmentation

Xinqiao Zhao, Ziqian Yang, Tianhong Dai et al.

CVPR 2025posterarXiv:2503.02231

#5583

CGMatch: A Different Perspective of Semi-supervised Learning

Bo Cheng, Jueqing Lu, Yuan Tian et al.

#5584

Towards 3D Vision with Low-Cost Single-Photon Cameras

Fangzhou Mu, Carter Sifferman, Sacha Jungerman et al.

CVPR 2024posterarXiv:2403.17801

#5585

Compositional Targeted Multi-Label Universal Perturbations

Hassan Mahmood, Ehsan Elhamifar

CVPR 2024posterarXiv:2311.17138

#5586

Shadows Don't Lie and Lines Can't Bend! Generative Models don't know Projective Geometry...for now

Ayush Sarkar, Hanlin Mai, Amitabh Mahapatra et al.

#5587

Aligning Logits Generatively for Principled Black-Box Knowledge Distillation

Jing Ma, Xiang Xiang, Ke Wang et al.

CVPR 2024posterarXiv:2205.10490

#5588

Semantically-Shifted Incremental Adapter-Tuning is A Continual ViTransformer

Yuwen Tan, Qinhao Zhou, Xiang Xiang et al.

#5589

ODA-GAN: Orthogonal Decoupling Alignment GAN Assisted by Weakly-supervised Learning for Virtual Immunohistochemistry Staining

Tong Wang, Mingkang Wang, Zhongze Wang et al.