Most Cited CVPR &quot;universal motion distribution&quot; Papers

#3002

R2C: Mapping Room to Chessboard to Unlock LLM As Low-Level Action Planner

Ziyi Bai, Hanxuan Li, Bin Fu et al.

#3003

PIAD: Pose and Illumination agnostic Anomaly Detection

Kaichen Yang, Junjie Cao, Zeyu Bai et al.

CVPR 2024posterarXiv:2404.07448

#3004

Transferable and Principled Efficiency for Open-Vocabulary Segmentation

Jingxuan Xu, Wuyang Chen, Yao Zhao et al.

#3005

Spk2SRImgNet: Super-Resolve Dynamic Scene from Spike Stream via Motion Aligned Collaborative Filtering

Yuanlin Wang, Yiyang Zhang, Ruiqin Xiong et al.

CVPR 2025posterarXiv:2503.20011

#3006

Hyperdimensional Uncertainty Quantification for Multimodal Uncertainty Fusion in Autonomous Vehicles Perception

Luke Chen, Junyao Wang, Trier Mortlock et al.

CVPR 2025posterarXiv:2502.21048

#3007

Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior

Chanhui Lee, Yeonghwan Song, Jeany Son

#3008

LoKi: Low-dimensional KAN for Efficient Fine-tuning Image Models

Xuan Cai, Renjie Pan, Hua Yang

CVPR 2025posterarXiv:2504.10659

#3009

Relation-Rich Visual Document Generator for Visual Information Extraction

Zi-Han Jiang, Chien-Wei Lin, WeiHua Li et al.

CVPR 2025posterarXiv:2505.07333

#3010

Link to the Past: Temporal Propagation for Fast 3D Human Reconstruction from Monocular Video

Marchellus Matthew, Nadhira Noor, In Kyu Park

CVPR 2025highlightarXiv:2503.04119

#3011

SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer

Chunnan Shang, Zhizhong Wang, Hongwei Wang et al.

CVPR 2025posterarXiv:2503.16916

#3012

Temporal Action Detection Model Compression by Progressive Block Drop

Xiaoyong Chen, Yong Guo, Jiaming Liang et al.

CVPR 2025posterarXiv:2504.11786

#3013

DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report Generation

Sang-Jun Park, Keun-Soo Heo, Dong-Hee Shin et al.

CVPR 2024posterarXiv:2405.04309

#3014

Non-Rigid Structure-from-Motion: Temporally-Smooth Procrustean Alignment and Spatially-Variant Deformation Modeling

Jiawei Shi, Hui Deng, Yuchao Dai

CVPR 2025posterarXiv:2505.13091

#3015

Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction

Yuanbo Wang, Zhaoxuan Zhang, Jiajin Qiu et al.

#3016

Boosting Point-Supervised Temporal Action Localization through Integrating Query Reformation and Optimal Transport

Mengnan Liu, Le Wang, Sanping Zhou et al.

#3017

F^3OCUS - Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics

Pramit Saha, Felix Wagner, Divyanshu Mishra et al.

CVPR 2025highlight

#3018

Sketchtopia: A Dataset and Foundational Agents for Benchmarking Asynchronous Multimodal Communication with Iconic Feedback

Mohd Hozaifa Khan, Ravi Kiran Sarvadevabhatla

CVPR 2025highlightarXiv:2504.17828

#3019

VEU-Bench: Towards Comprehensive Understanding of Video Editing

Bozheng Li, Yongliang Wu, YI LU et al.

CVPR 2025posterarXiv:2411.16199

#3020

VIRES: Video Instance Repainting via Sketch and Text Guided Generation

Shuchen Weng, Haojie Zheng, Peixuan Zhang et al.

#3021

Pseudo Visible Feature Fine-Grained Fusion for Thermal Object Detection

Ting Li, Mao Ye, Tianwen Wu et al.

CVPR 2025posterarXiv:2505.19793

#3022

Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field Reconstruction

Li Fang, Hao Zhu, Longlong Chen et al.

CVPR 2025posterarXiv:2412.05279

#3023

Perturb-and-Revise: Flexible 3D Editing with Generative Trajectories

Susung Hong, Johanna Suvi Karras, Ricardo Martin et al.

#3024

DynPose: Largely Improving the Efficiency of Human Pose Estimation by a Simple Dynamic Framework

Yalong Xu, Lin Zhao, Chen Gong et al.

#3025

UMFN: Unified Multi-Domain Face Normalization for Joint Cross-domain Prototype Learning and Heterogeneous Face Recognition

Meng Pang, Wenjun Zhang, Nanrun Zhou et al.

CVPR 2025posterarXiv:2503.12150

#3026

Point-Cache: Test-time Dynamic and Hierarchical Cache for Robust and Generalizable Point Cloud Analysis

Hongyu Sun, Qiuhong Ke, Ming Cheng et al.

CVPR 2025posterarXiv:2504.13167

#3027

ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos

Zetong Zhang, Manuel Kaufmann, Lixin Xue et al.

CVPR 2025posterarXiv:2503.06517

#3028

Instance-wise Supervision-level Optimization in Active Learning

Shinnosuke Matsuo, Riku Togashi, Ryoma Bise et al.

#3029

Keep the Balance: A Parameter-Efficient Symmetrical Framework for RGB+X Semantic Segmentation

Jiaxin Cai, Jingze Su, Qi Li et al.

CVPR 2025posterarXiv:2504.03006

#3030

DiSRT-In-Bed: Diffusion-Based Sim-to-Real Transfer Framework for In-Bed Human Mesh Recovery

Jing Gao, Ce Zheng, Laszlo Jeni et al.

CVPR 2025posterarXiv:2412.05984

#3031

Nested Diffusion Models Using Hierarchical Latent Priors

Xiao Zhang, Ruoxi Jiang, Rebecca Willett et al.

#3032

Polarized Color Screen Matting

Kenji Enomoto, Scott Cohen, Brian Price et al.

CVPR 2025highlight

#3033

VSNet: Focusing on the Linguistic Characteristics of Sign Language

Yuhao Li, Xinyue Chen, Hongkai Li et al.

#3034

Customized Condition Controllable Generation for Video Soundtrack

Fan Qi, KunSheng Ma, Changsheng Xu

#3035

AdaptCMVC: Robust Adaption to Incremental Views in Continual Multi-view Clustering

Jing Wang, Songhe Feng, Kristoffer Knutsen Wickstrøm et al.

CVPR 2025posterarXiv:2506.09473

#3036

Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning

Cheng Chen, Yunpeng Zhai, Yifan Zhao et al.

#3037

Video Language Model Pretraining with Spatio-temporal Masking

Yue Wu, Zhaobo Qi, Junshu Sun et al.

CVPR 2025highlightarXiv:2503.23094

#3038

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video

Andrea Boscolo Camiletto, Jian Wang, Eduardo Alvarado et al.

CVPR 2025posterarXiv:2501.04666

#3039

Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling

Nannan Li, Kevin Shih, Bryan A. Plummer

CVPR 2025posterarXiv:2503.13241

#3040

Sampling Innovation-Based Adaptive Compressive Sensing

Zhifu Tian, Tao Hu, Chaoyang Niu et al.

CVPR 2025posterarXiv:2503.00260

#3041

Seeing A 3D World in A Grain of Sand

Yufan Zhang, Yu Ji, Yu Guo et al.

CVPR 2025posterarXiv:2503.23030

#3042

Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning

Huajie Jiang, Zhengxian Li, Xiaohan Yu et al.

#3043

Multi-modal Topology-embedded Graph Learning for Spatially Resolved Genes Prediction from Pathology Images with Prior Gene Similarity Information

Hang Shi, Chi Changxi, Peng Wan et al.

#3044

Language-Assisted Debiasing and Smoothing for Foundation Model-Based Semi-Supervised Learning

Na Zheng, Xuemeng Song, Xue Dong et al.

CVPR 2024posterarXiv:2402.16594

#3045

CURSOR: Scalable Mixed-Order Hypergraph Matching with CUR Decomposition

Qixuan Zheng, Ming Zhang, Hong Yan

CVPR 2025posterarXiv:2503.23109

#3046

Uncertainty-Instructed Structure Injection for Generalizable HD Map Construction

Xiaolu Liu, Ruizi Yang, Song Wang et al.

#3047

Revisiting Fairness in Multitask Learning: A Performance-Driven Approach for Variance Reduction

Xiaohan Qin, Xiaoxing Wang, Junchi Yan

#3048

Towards Cost-Effective Learning: A Synergy of Semi-Supervised and Active Learning

Tianxiang Yin, Ningzhong Liu, Han Sun

#3049

Feature Spectrum Learning for Remote Sensing Change Detection

Qi Zang, Dong Zhao, Shuang Wang et al.

#3050

SinGS: Animatable Single-Image Human Gaussian Splats with Kinematic Priors

Yufan Wu, Xuanhong Chen, Wen Li et al.

CVPR 2025posterarXiv:2505.05711

#3051

DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer

Ho-Joong Kim, Yearang Lee, Jung-Ho Hong et al.

CVPR 2025posterarXiv:2503.00861

#3052

Zero-Shot Head Swapping in Real-World Scenarios

Sohyun Jeong, Taewoong Kang, Hyojin Jang et al.

#3053

CamPoint: Boosting Point Cloud Segmentation with Virtual Camera

Jianhui Zhang, Luo Yizhi, Zicheng Zhang et al.

CVPR 2025posterarXiv:2505.06580

#3054

TAROT: Towards Essentially Domain-Invariant Robustness with Theoretical Justification

Dongyoon Yang, Jihu Lee, Yongdai Kim

#3055

Take the Bull by the Horns: Learning to Segment Hard Samples

Yuan Guo, Jingyu Kong, Yu Wang et al.

#3056

MaDCoW: Marginal Distortion Correction for Wide-Angle Photography with Arbitrary Objects

Kevin Zhang, Jia-Bin Huang, Jose Echevarria et al.

#3057

ONDA-Pose: Occlusion-Aware Neural Domain Adaptation for Self-Supervised 6D Object Pose Estimation

Tao Tan, Qiulei Dong

#3058

POMP: Physics-constrainable Motion Generative Model through Phase Manifolds

Bin Ji, Ye Pan, zhimeng Liu et al.

CVPR 2025posterarXiv:2503.08382

#3059

Twinner: Shining Light on Digital Twins in a Few Snaps

Jesus Zarzar, Tom Monnier, Roman Shapovalov et al.

CVPR 2025posterarXiv:2503.08601

#3060

LiSu: A Dataset and Method for LiDAR Surface Normal Estimation

Dušan Malić, Christian Fruhwirth-Reisinger, Samuel Schulter et al.

CVPR 2025posterarXiv:2406.10197

#3061

Composing Parts for Expressive Object Generation

Harsh Rangwani, Aishwarya Agarwal, Kuldeep Kulkarni et al.

CVPR 2025posterarXiv:2502.02187

#3062

ShapeShifter: 3D Variations Using Multiscale and Sparse Point-Voxel Diffusion

Nissim Maruani, Wang Yifan, Matthew Fisher et al.

#3063

PersonaHOI: Effortlessly Improving Face Personalization in Human-Object Interaction Generation

Xinting Hu, Haoran Wang, Jan Lenssen et al.

CVPR 2025posterarXiv:2502.20499

#3064

Data Distributional Properties As Inductive Bias for Systematic Generalization

Felipe del Rio, Alain Raymond, Daniel Florea et al.

#3065

CaMuViD: Calibration-Free Multi-View Detection

Amir Etefaghi Daryani, M. Usman Maqbool Bhutta, Byron Hernandez et al.

#3066

Minimal Interaction Seperated Tuning: A New Paradigm for Visual Adaptation

Ningyuan Tang, Minghao Fu, Jianxin Wu

CVPR 2025posterarXiv:2503.18507

#3067

Can Text-to-Video Generation help Video-Language Alignment?

Luca Zanella, Massimiliano Mancini, Willi Menapace et al.

CVPR 2025highlightarXiv:2412.00133

#3068

ETAP: Event-based Tracking of Any Point

Friedhelm Hamann, Daniel Gehrig, Filbert Febryanto et al.

CVPR 2025posterarXiv:2503.18483

#3069

Explaining Domain Shifts in Language: Concept Erasing for Interpretable Image Classification

Zequn Zeng, Yudi Su, Jianqiao Sun et al.

CVPR 2025posterarXiv:2503.15975

#3070

Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation

Kendong Liu, Zhiyu Zhu, Hui LIU et al.

CVPR 2025posterarXiv:2506.07750

#3071

Difference Inversion: Interpolate and Isolate the Difference with Token Consistency for Image Analogy Generation

Hyunsoo Kim, Donghyun Kim, Suhyun Kim

#3072

CocoER: Aligning Multi-Level Feature by Competition and Coordination for Emotion Recognition

Xuli Shen, Hua Cai, Weilin Shen et al.

#3073

Bi-level Learning of Task-Specific Decoders for Joint Registration and One-Shot Medical Image Segmentation

Xin Fan, Xiaolin Wang, Jiaxin Gao et al.

#3074

Brain-Inspired Spiking Neural Networks for Energy-Efficient Object Detection

Ziqi Li, Tao Gao, Yisheng An et al.

CVPR 2024posterarXiv:2403.19949

#3075

FairCLIP: Harnessing Fairness in Vision-Language Learning

Yan Luo, MIN SHI, Muhammad Osama Khan et al.

#3076

Navigate Beyond Shortcuts: Debiased Learning Through the Lens of Neural Collapse

Yining Wang, Junjie Sun, Chenyue Wang et al.

CVPR 2024highlightarXiv:2405.05587

#3077

Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning

Huiyi Wang, Haodong Lu, Lina Yao et al.

CVPR 2025posterarXiv:2403.18886

#3078

Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language

Mark Hamilton, Andrew Zisserman, John Hershey et al.

#3079

Learning Visual Prompt for Gait Recognition

Kang Ma, Ying Fu, Chunshui Cao et al.

#3080

PointSR: Self-Regularized Point Supervision for Drone-View Object Detection

Weizhuo Li, Yue Xi, Wenjing Jia et al.

CVPR 2025posterarXiv:2412.07589

#3081

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Jianzong Wu, Chao Tang, Jingbo Wang et al.

#3082

ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

Xinyu Tian, Shu Zou, Zhaoyuan Yang et al.

CVPR 2024posterarXiv:2311.16494

#3083

PolarRec: Improving Radio Interferometric Data Reconstruction Using Polar Coordinates

Ruoqi Wang, Zhuoyang Chen, Jiayi Zhu et al.

CVPR 2024posterarXiv:2307.09815

#3084

LDP: Language-driven Dual-Pixel Image Defocus Deblurring Network

Hao Yang, Liyuan Pan, Yan Yang et al.

#3085

DaReNeRF: Direction-aware Representation for Dynamic Scenes

Ange Lou, Benjamin Planche, Zhongpai Gao et al.

CVPR 2024posterarXiv:2403.02265

#3086

StyleCineGAN: Landscape Cinemagraph Generation using a Pre-trained StyleGAN

Jongwoo Choi, Kwanggyoon Seo, Amirsaman Ashtari et al.

CVPR 2024posterarXiv:2403.14186

#3087

MS-MANO: Enabling Hand Pose Tracking with Biomechanical Constraints

Pengfei Xie, Wenqiang Xu, Tutian Tang et al.

CVPR 2024posterarXiv:2404.10227

#3088

CGI-DM: Digital Copyright Authentication for Diffusion Models via Contrasting Gradient Inversion

Xiaoyu Wu, Yang Hua, Chumeng Liang et al.

CVPR 2024posterarXiv:2403.11162

#3089

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation

Ming Xu, Stephen Gould

CVPR 2024posterarXiv:2404.01518

#3090

ICON: Incremental CONfidence for Joint Pose and Radiance Field Optimization

Weiyao Wang, Pierre Gleize, Hao Tang et al.

CVPR 2024posterarXiv:2401.08937

#3091

Learning Large-Factor EM Image Super-Resolution with Generative Priors

Jiateng Shou, Zeyu Xiao, Shiyu Deng et al.

CVPR 2024posterarXiv:2312.09069

#3092

PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion

Ying-Tian Liu, Yuan-Chen Guo, Guan Luo et al.

#3093

Learning for Transductive Threshold Calibration in Open-World Recognition

Qin ZHANG, DONGSHENG An, Tianjun Xiao et al.

CVPR 2024posterarXiv:2305.12039

#3094

AniDoc: Animation Creation Made Easier

Yihao Meng, Hao Ouyang, Hanlin Wang et al.

CVPR 2025posterarXiv:2412.14173

#3095

Camouflage Anything: Learning to Hide using Controlled Out-painting and Representation Engineering

Biplab Das, Viswanath Gopalakrishnan

CVPR 2024posterarXiv:2402.18467

#3096

Separate and Conquer: Decoupling Co-occurrence via Decomposition and Representation for Weakly Supervised Semantic Segmentation

Zhiwei Yang, Kexue Fu, Minghong Duan et al.

#3097

Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence

Junyi Zhang, Charles Herrmann, Junhwa Hur et al.

CVPR 2024posterarXiv:2311.17034

#3098

Amodal Ground Truth and Completion in the Wild

Guanqi Zhan, Chuanxia Zheng, Weidi Xie et al.

CVPR 2024posterarXiv:2312.17247

#3099

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding

Chun-Peng Chang, Shaoxiang Wang, Alain Pagani et al.

CVPR 2024posterarXiv:2403.03077

#3100

Leveraging Temporal Cues for Semi-Supervised Multi-View 3D Object Detection

Jinhyung Park, Navyata Sanghvi, Hiroki Adachi et al.

CVPR 2024posterarXiv:2403.01053

#3101

Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic Modeling

Jianan Fan, Dongnan Liu, Hang Chang et al.

#3102

Real-Time Exposure Correction via Collaborative Transformations and Adaptive Sampling

Ziwen Li, Feng Zhang, Meng Cao et al.

CVPR 2024highlightarXiv:2312.06741

#3103

Gaussian Splatting SLAM

Hidenobu Matsuki, Riku Murai, Paul Kelly et al.

#3104

PromptCoT: Align Prompt Distribution via Adapted Chain-of-Thought

Junyi Yao, Yijiang Liu, Zhen Dong et al.

CVPR 2024posterarXiv:2312.13328

#3105

NeLF-Pro: Neural Light Field Probes for Multi-Scale Novel View Synthesis

Zinuo You, Andreas Geiger, Anpei Chen

#3106

CGMatch: A Different Perspective of Semi-supervised Learning

Bo Cheng, Jueqing Lu, Yuan Tian et al.

CVPR 2025posterarXiv:2503.02231

#3107

Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction

Guillaume Jaume, Anurag Vaidya, Richard J. Chen et al.

CVPR 2024posterarXiv:2304.06819

#3108

Practical Measurements of Translucent Materials with Inter-Pixel Translucency Prior

Zhenyu Chen, Jie Guo, Shuichang Lai et al.

#3109

Compositional Targeted Multi-Label Universal Perturbations

Hassan Mahmood, Ehsan Elhamifar

CVPR 2024posterarXiv:2403.19242

#3110

RTracker: Recoverable Tracking via PN Tree Structured Memory

Yuqing Huang, Xin Li, Zikun Zhou et al.

#3111

View-Category Interactive Sharing Transformer for Incomplete Multi-View Multi-Label Learning

Shilong Ou, Zhe Xue, Yawen Li et al.

CVPR 2024highlight

#3112

Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models

Yabin Zhang, Wenjie Zhu, Hui Tang et al.

CVPR 2024posterarXiv:2403.17589

#3113

ODA-GAN: Orthogonal Decoupling Alignment GAN Assisted by Weakly-supervised Learning for Virtual Immunohistochemistry Staining

Tong Wang, Mingkang Wang, Zhongze Wang et al.

CVPR 2025posterarXiv:2505.23180

#3114

Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging

Ping Wang, Lishun Wang, Gang Qu et al.

#3115

From Head to Tail: Efficient Black-box Model Inversion Attack via Long-tailed Learning

Ziang Li, Hongguang Zhang, Juan Wang et al.

CVPR 2025posterarXiv:2503.16266

#3116

A Versatile Framework for Continual Test-Time Domain Adaptation: Balancing Discriminability and Generalizability

Xu Yang, Xuan chen, Moqi Li et al.

CVPR 2024highlightarXiv:2404.16552

#3117

Efficient Solution of Point-Line Absolute Pose

Petr Hruby, Timothy Duff, Marc Pollefeys

#3118

SPIN: Simultaneous Perception Interaction and Navigation

Shagun Uppal, Ananye Agarwal, Haoyu Xiong et al.

CVPR 2024posterarXiv:2405.07991

#3119

CAMixerSR: Only Details Need More "Attention"

Yan Wang, Yi Liu, Shijie Zhao et al.

CVPR 2025posterarXiv:2412.09545

#3120

SimAvatar: Simulation-Ready Avatars with Layered Hair and Clothing

Xueting Li, Ye Yuan, Shalini De Mello et al.

#3121

SerialGen: Personalized Image Generation by First Standardization Then Personalization

Cong Xie, Han Zou, Ruiqi Yu et al.

CVPR 2025posterarXiv:2412.01485

#3122

FISBe: A Real-World Benchmark Dataset for Instance Segmentation of Long-Range Thin Filamentous Structures

Lisa Mais, Peter Hirsch, Claire Managan et al.

CVPR 2024posterarXiv:2404.00130

#3123

POPDG: Popular 3D Dance Generation with PopDanceSet

Zhenye Luo, Min Ren, Xuecai Hu et al.

CVPR 2024posterarXiv:2405.03178

#3124

RankMatch: Exploring the Better Consistency Regularization for Semi-supervised Semantic Segmentation

Huayu Mai, Rui Sun, Tianzhu Zhang et al.

#3125

CoDe: An Explicit Content Decoupling Framework for Image Restoration

Enxuan Gu, Hongwei Ge, Yong Guo

#3126

D^4: Dataset Distillation via Disentangled Diffusion Model

Duo Su, Junjie Hou, Weizhi Gao et al.

CVPR 2025posterarXiv:2501.04440

#3127

RSAR: Restricted State Angle Resolver and Rotated SAR Benchmark

Xin Zhang, Xue Yang, Yuxuan Li et al.

#3128

Few-shot Implicit Function Generation via Equivariance

Suizhi Huang, Xingyi Yang, Hongtao Lu et al.

CVPR 2025highlightarXiv:2501.01601

#3129

MaIR: A Locality- and Continuity-Preserving Mamba for Image Restoration

Boyun Li, Haiyu Zhao, Wenxin Wang et al.

CVPR 2025posterarXiv:2412.20066

#3130

ViKIENet: Towards Efficient 3D Object Detection with Virtual Key Instance Enhanced Network

Zhuochen Yu, Bijie Qiu, Andy W. H. Khong

CVPR 2024posterarXiv:2308.10997

#3131

MarkovGen: Structured Prediction for Efficient Text-to-Image Generation

Sadeep Jayasumana, Daniel Glasner, Srikumar Ramalingam et al.

#3132

CoCoGaussian: Leveraging Circle of Confusion for Gaussian Splatting from Defocused Images

Jungho Lee, Suhwan Cho, Taeoh Kim et al.

CVPR 2025posterarXiv:2412.16028

#3133

Rethinking the Representation in Federated Unsupervised Learning with Non-IID Data

Xinting Liao, Weiming Liu, Chaochao Chen et al.

CVPR 2024posterarXiv:2403.16398

#3134

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

David Junhao Zhang, Roni Paiss, Shiran Zada et al.

CVPR 2025posterarXiv:2411.05003

#3135

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification

Jiangbo Shi, Chen Li, Tieliang Gong et al.

CVPR 2024posterarXiv:2502.08391

#3136

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh et al.

CVPR 2025posterarXiv:2412.03548

#3137

Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance

Phuc Nguyen, Tuan Duc Ngo, Evangelos Kalogerakis et al.

CVPR 2024posterarXiv:2312.10671

#3138

Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs

Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed et al.

CVPR 2024posterarXiv:2404.07449

#3139

Augmenting Perceptual Super-Resolution via Image Quality Predictors

Fengjia Zhang, Samrudhdhi Rangrej, Tristan T Aumentado-Armstrong et al.

CVPR 2025posterarXiv:2504.18524

#3140

CaDeT: a Causal Disentanglement Approach for Robust Trajectory Prediction in Autonomous Driving

Mozhgan Pourkeshavarz, Junrui Zhang, Amir Rasouli

CVPR 2024posterarXiv:2403.11530

#3141

Continual Forgetting for Pre-trained Vision Models

Hongbo Zhao, Bolin Ni, Junsong Fan et al.

#3142

Beyond Single-Modal Boundary: Cross-Modal Anomaly Detection through Visual Prototype and Harmonization

Kai Mao, Ping Wei, Yiyang Lian et al.

CVPR 2024highlightarXiv:2402.18152

#3143

Boosting Neural Representations for Videos with a Conditional Decoder

XINJIE ZHANG, Ren Yang, Dailan He et al.

#3144

Unsupervised Feature Learning with Emergent Data-Driven Prototypicality

Yunhui Guo, Youren Zhang, Yubei Chen et al.

CVPR 2024posterarXiv:2307.01421

#3145

Text-Guided 3D Face Synthesis - From Generation to Editing

Yunjie Wu, Yapeng Meng, Zhipeng Hu et al.

CVPR 2024posterarXiv:2312.00375

#3146

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Huan Ling, Seung Wook Kim, Antonio Torralba et al.

CVPR 2024highlightarXiv:2312.13763

#3147

IReNe: Instant Recoloring of Neural Radiance Fields

Alessio Mazzucchelli, Adrian Garcia-Garcia, Elena Garces et al.

CVPR 2024posterarXiv:2405.19876

#3148

Text Augmented Correlation Transformer For Few-shot Classification & Segmentation

Srinivasa Rao Nandam, Sara Atito, Zhenhua Feng et al.

CVPR 2025posterarXiv:2503.13446

#3149

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

Zhenyu Wu, Yuheng Zhou, Xiuwei Xu et al.

#3150

MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing

Shuo Wang, Wanting Li, Yongcai Wang et al.

CVPR 2025posterarXiv:2412.20082

#3151

Constrained Layout Generation with Factor Graphs

Mohammed Haroon Dupty, Yanfei Dong, Sicong Leng et al.

CVPR 2024posterarXiv:2404.00385

#3152

TAGA: Self-supervised Learning for Template-free Animatable Gaussian Articulated Model

Zhichao Zhai, Guikun Chen, Wenguan Wang et al.

CVPR 2024posterarXiv:2401.05334

#3153

URHand: Universal Relightable Hands

Zhaoxi Chen, Gyeongsik Moon, Kaiwen Guo et al.

#3154

Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages

Matteo Farina, Massimiliano Mancini, Giovanni Iacca et al.

CVPR 2025posterarXiv:2503.11609

#3155

Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents

Jun Chen, Dannong Xu, Junjie Fei et al.

CVPR 2025posterarXiv:2411.16740

#3156

All-Day Multi-Camera Multi-Target Tracking

Huijie Fan, Yu Qiao, Yihao Zhen et al.

CVPR 2024posterarXiv:2308.13888

#3157

Neural Implicit Morphing of Face Images

Guilherme Schardong, Tiago Novello, Hallison Paz et al.

#3158

Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding

Wenbo Chen, Zhen Xu, Ruotao Xu et al.

#3159

Distilling CLIP with Dual Guidance for Learning Discriminative Human Body Shape Representation

Feng Liu, Minchul Kim, Zhiyuan Ren et al.

#3160

Snapshot Lidar: Fourier Embedding of Amplitude and Phase for Single-Image Depth Reconstruction

Sarah Friday, Yunzi Shi, Yaswanth Kumar Cherivirala et al.

CVPR 2024posterarXiv:2402.17417

#3161

CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification

Haoran Lai, Qingsong Yao, Zihang Jiang et al.

#3162

MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual Invariant

Chenlu Zhan, Gaoang Wang, Yu LIN et al.

CVPR 2024posterarXiv:2403.04290

#3163

GLID: Pre-training a Generalist Encoder-Decoder Vision Model

Jihao Liu, Jinliang Zheng, Yu Liu et al.

CVPR 2024posterarXiv:2404.07603

#3164

Your Image is My Video: Reshaping the Receptive Field via Image-To-Video Differentiable AutoAugmentation and Fusion

Sofia Casarin, Cynthia Ugwu, Sergio Escalera et al.

CVPR 2024posterarXiv:2403.15194

#3165

Kernel Adaptive Convolution for Scene Text Detection via Distance Map Prediction

Jinzhi Zheng, Heng Fan, Libo Zhang

CVPR 2025posterarXiv:2503.22268

#3166

Segment Any Motion in Videos

Nan Huang, Wenzhao Zheng, Chenfeng Xu et al.

#3167

Visual Prompting for One-shot Controllable Video Editing without Inversion

Zhengbo Zhang, Yuxi Zhou, DUO PENG et al.

CVPR 2025posterarXiv:2504.14335

#3168

NeRFCodec: Neural Feature Compression Meets Neural Radiance Fields for Memory-Efficient Scene Representation

Sicheng Li, Hao Li, Yiyi Liao et al.

CVPR 2024posterarXiv:2404.02185

#3169

Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing

Hyelin Nam, Gihyun Kwon, Geon Yeong Park et al.

CVPR 2024posterarXiv:2311.18608

#3170

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang et al.

CVPR 2025posterarXiv:2503.09590

#3171

PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar

Tzofi Klinghoffer, Xiaoyu Xiang, Siddharth Somasundaram et al.

CVPR 2024posterarXiv:2312.14239

#3172

DiffLoc: Diffusion Model for Outdoor LiDAR Localization

Wen Li, Yuyang Yang, Shangshu Yu et al.

CVPR 2025posterarXiv:2411.16824

#3173

Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge

Yaqi Zhao, Yuanyang Yin, Lin Li et al.

#3174

Hazy Low-Quality Satellite Video Restoration Via Learning Optimal Joint Degradation Patterns and Continuous-Scale Super-Resolution Reconstruction

Ning Ni, Libao Zhang

CVPR 2024posterarXiv:2403.06247

#3175

Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation

Mingyu Lee, Jongwon Choi

#3176

Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

Pengze Zhang, Hubery Yin, Chen Li et al.

CVPR 2024highlightarXiv:2403.08381

#3177

ADD: Attribution-Driven Data Augmentation Framework for Boosting Image Super-Resolution

Zeyu Mi, Yu-Bin Yang

CVPR 2025posterarXiv:2506.13224

#3178

SASep: Saliency-Aware Structured Separation of Geometry and Feature for Open Set Learning on Point Clouds

Jinfeng Xu, Xianzhi Li, Yuan Tang et al.

#3179

Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning

Siteng Huang, Biao Gong, Yutong Feng et al.

CVPR 2024posterarXiv:2303.15230

#3180

Soften to Defend: Towards Adversarial Robustness via Self-Guided Label Refinement

Daiwei Yu, Zhuorong Li, Lina Wei et al.

CVPR 2024posterarXiv:2403.09101

#3181

DiPrompT: Disentangled Prompt Tuning for Multiple Latent Domain Generalization in Federated Learning

Sikai Bai, Jie ZHANG, Song Guo et al.

CVPR 2024posterarXiv:2403.08506

#3182

LoCoNet: Long-Short Context Network for Active Speaker Detection

Xizi Wang, Feng Cheng, Gedas Bertasius

CVPR 2024posterarXiv:2301.08237

#3183

WinSyn: : A High Resolution Testbed for Synthetic Data

Tom Kelly, John Femiani, Peter Wonka

CVPR 2024posterarXiv:2310.08471

#3184

SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion Model

Yucheng Mao, Boyang Wang, Nilesh Kulkarni et al.

CVPR 2025posterarXiv:2503.14463

#3185

Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation

Daichi Horita, Naoto Inoue, Kotaro Kikuchi et al.

CVPR 2024posterarXiv:2311.13602

#3186

Wired Perspectives: Multi-View Wire Art Embraces Generative AI

Zhiyu Qu, LAN YANG, Honggang Zhang et al.

CVPR 2024posterarXiv:2311.15421

#3187

Small Scale Data-Free Knowledge Distillation

He Liu, Yikai Wang, Huaping Liu et al.

CVPR 2024posterarXiv:2406.07876

#3188

Transfer CLIP for Generalizable Image Denoising

Jun Cheng, Dong Liang, Shan Tan

CVPR 2024posterarXiv:2403.15132

#3189

Validating Privacy-Preserving Face Recognition under a Minimum Assumption

Hui Zhang, Xingbo Dong, YenLungLai et al.

CVPR 2024highlightarXiv:2311.17083

#3190

All-Optical Nonlinear Diffractive Deep Network for Ultrafast Image Denoising

Xiaoling Zhou, Zhemg Lee, Wei Ye et al.

CVPR 2025highlight

#3191

CLiC: Concept Learning in Context

Mehdi Safaee, Aryan Mikaeili, Or Patashnik et al.

#3192

IDGuard: Robust General Identity-centric POI Proactive Defense Against Face Editing Abuse

Yunshu Dai, Jianwei Fei, Fangjun Huang

CVPR 2025posterarXiv:2505.11676

#3193

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation

Ziyu Zhao, Xiaoguang Li, Lingjia Shi et al.

#3194

DejaVid: Encoder-Agnostic Learned Temporal Matching for Video Classification

Darryl Ho, Samuel Madden

CVPR 2025posterarXiv:2506.12585

#3195

Feature Re-Embedding: Towards Foundation Model-Level Performance in Computational Pathology

Wenhao Tang, Fengtao ZHOU, Sheng Huang et al.

CVPR 2024posterarXiv:2402.17228

#3196

Hierarchical Knowledge Prompt Tuning for Multi-task Test-Time Adaptation

Qiang Zhang, Mengsheng Zhao, Jiawei Liu et al.

CVPR 2025posterarXiv:2503.03430

#3197

CoSDH: Communication-Efficient Collaborative Perception via Supply-Demand Awareness and Intermediate-Late Hybridization

Junhao Xu, Yanan Zhang, Zhi Cai et al.

#3198

A Focused Human Body Model for Accurate Anthropometric Measurements Extraction

Shuhang Chen, Xianliang Huang, Zhizhou Zhong et al.