Most Cited CVPR &quot;semantic token prediction&quot; Papers

CVPR 2025posterarXiv:2412.04317

#2202

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

Bo Tong, Bokai Lai, Yiyi Zhou et al.

CVPR 2025posterarXiv:2506.08887

#2203

DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

Leqi Shen, Guoqiang Gong, Tianxiang Hao et al.

#2204

Neural Hierarchical Decomposition for Single Image Plant Modeling

Zhihao Liu, Zhanglin Cheng, Naoto Yokoya

CVPR 2025highlightarXiv:2403.11295

#2205

Order-One Rolling Shutter Cameras

Marvin Anas Hahn, Kathlén Kohn, Orlando Marigliano et al.

CVPR 2025highlightarXiv:2507.22264

#2206

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees

Shaoan Xie, Lingjing Kong, Yujia Zheng et al.

CVPR 2025posterarXiv:2503.23241

#2207

Geometry in Style: 3D Stylization via Surface Normal Deformation

Nam Anh Dinh, Itai Lang, Hyunwoo Kim et al.

CVPR 2025posterarXiv:2503.20418

#2208

ITA-MDT: Image-Timestep-Adaptive Masked Diffusion Transformer Framework for Image-Based Virtual Try-On

Ji Woo Hong, Tri Ton, Trung X. Pham et al.

CVPR 2024posterarXiv:2403.08768

#2209

3DFIRES: Few Image 3D REconstruction for Scenes with Hidden Surfaces

Linyi Jin, Nilesh Kulkarni, David Fouhey

CVPR 2025posterarXiv:2411.11361

#2210

Scalable Autoregressive Monocular Depth Estimation

Jinhong Wang, Jintai Chen, Jian liu et al.

CVPR 2024posterarXiv:2402.08919

#2211

Interpretable Measures of Conceptual Similarity by Complexity-Constrained Descriptive Auto-Encoding

Alessandro Achille, Greg Ver Steeg, Tian Yu Liu et al.

CVPR 2025posterarXiv:2412.17741

#2212

Reasoning to Attend: Try to Understand How <SEG> Token Works

Rui Qian, Xin Yin, Dejing Dou

CVPR 2024posterarXiv:2404.19250

#2213

Enhancing Intrinsic Features for Debiasing via Investigating Class-Discerning Common Attributes in Bias-Contrastive Pair

Jeonghoon Park, Chaeyeon Chung, Jaegul Choo

CVPR 2024posterarXiv:2401.10217

#2214

Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions

Namitha Padmanabhan, Matthew A Gwilliam, Pulkit Kumar et al.

CVPR 2025posterarXiv:2412.11519

#2215

LineArt: A Knowledge-guided Training-free High-quality Appearance Transfer for Design Drawing with Diffusion Model

Xi Wang, Hongzhen Li, Heng Fang et al.

CVPR 2025posterarXiv:2411.18082

#2216

Dual-view X-ray Detection: Can AI Detect Prohibited Items from Dual-view X-ray Images like Humans?

Renshuai Tao, Haoyu Wang, Yuzhe Guo et al.

CVPR 2025highlightarXiv:2503.15019

#2217

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Shengqiong Wu, Hao Fei, Jingkang Yang et al.

#2218

Pose Adapted Shape Learning for Large-Pose Face Reenactment

Gee-Sern Hsu, Jie-Ying Zhang, Yu-Hsiang Huang et al.

CVPR 2024posterarXiv:2403.17502

#2219

SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder

Dihan Zheng, Yihang Zou, Xiaowen Zhang et al.

CVPR 2024posterarXiv:2312.04553

#2220

SPIDeRS: Structured Polarization for Invisible Depth and Reflectance Sensing

Tomoki Ichikawa, Shohei Nobuhara, Ko Nishino

CVPR 2025posterarXiv:2503.17984

#2221

Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Counting

Maochen Yang, Zekun Li, Jian Zhang et al.

CVPR 2024posterarXiv:2403.04368

#2222

Learning to Remove Wrinkled Transparent Film with Polarized Prior

Jiaqi Tang, RUIZHENG WU, Xiaogang Xu et al.

CVPR 2025posterarXiv:2502.17435

#2223

GCC: Generative Color Constancy via Diffusing a Color Checker

Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang et al.

#2224

POCE: Primal Policy Optimization with Conservative Estimation for Multi-constraint Offline Reinforcement Learning

Jiayi Guan, Li Shen, Ao Zhou et al.

CVPR 2025posterarXiv:2505.06218

#2225

Let Humanoids Hike! Integrative Skill Development on Complex Trails

Kwan-Yee Lin, Stella X. Yu

CVPR 2025posterarXiv:2504.21749

#2226

Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space

Leonhard Sommer, Olaf Dünkel, Christian Theobalt et al.

CVPR 2024posterarXiv:2403.13293

#2227

Building Optimal Neural Architectures using Interpretable Knowledge

Keith Mills, Fred Han, Mohammad Salameh et al.

#2228

Secret Lies in Color: Enhancing AI-Generated Images Detection with Color Distribution Analysis

Zexi Jia, Chuanwei Huang, Yeshuang Zhu et al.

CVPR 2025posterarXiv:2503.18074

#2229

WISE: A Framework for Gigapixel Whole-Slide-Image Lossless Compression

Yu Mao, Jun Wang, Nan Guan et al.

CVPR 2024posterarXiv:2401.02937

#2230

Locally Adaptive Neural 3D Morphable Models

Michail Tarasiou, Rolandos Alexandros Potamias, Eimear O' Sullivan et al.

CVPR 2025posterarXiv:2412.11767

#2231

IDEA-Bench: How Far are Generative Models from Professional Designing?

Chen Liang, Lianghua Huang, Jingwu Fang et al.

CVPR 2025posterarXiv:2503.10257

#2232

AMR-Transformer: Enabling Efficient Long-range Interaction for Complex Neural Fluid Simulation

Zeyi Xu, Jinfan Liu, Kuangxu Chen et al.

CVPR 2025highlightarXiv:2412.05826

#2233

Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features

Yuanbo Xiangli, Ruojin Cai, Hanyu Chen et al.

#2234

Multi-Label Prototype Visual Spatial Search for Weakly Supervised Semantic Segmentation

Songsong Duan, Xi Yang, Nannan Wang

CVPR 2024posterarXiv:2403.19220

#2235

GeoAuxNet: Towards Universal 3D Representation Learning for Multi-sensor Point Clouds

Shengjun Zhang, Xin Fei, Yueqi Duan

CVPR 2025posterarXiv:2503.03651

#2236

DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles

Rui Zhao, Weijia Mao, Mike Zheng Shou

CVPR 2025posterarXiv:2503.08173

#2237

Towards All-in-One Medical Image Re-Identification

Yuan Tian, Kaiyuan Ji, Rongzhao Zhang et al.

CVPR 2025posterarXiv:2503.18703

#2238

Channel Consistency Prior and Self-Reconstruction Strategy Based Unsupervised Image Deraining

Guanglu Dong, Tianheng Zheng, Yuanzhouhan Cao et al.

#2239

Noise-Resistant Video Anomaly Detection via RGB Error-Guided Multiscale Predictive Coding and Dynamic Memory

Han Hu, Wenli Du, Peng Liao et al.

CVPR 2025posterarXiv:2503.10412

#2240

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

Luyuan Xie, Tianyu Luan, Wenyuan Cai et al.

CVPR 2025posterarXiv:2503.03782

#2241

ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge

Radu Berdan, Beril Besbinar, Christoph Reinders et al.

CVPR 2025posterarXiv:2506.02781

#2242

FreeScene: Mixed Graph Diffusion for 3D Scene Synthesis from Free Prompts

Tongyuan Bai, Wangyuanfan Bai, Dong Chen et al.

#2243

Omni-Q: Omni-Directional Scene Understanding for Unsupervised Visual Grounding

Sai Wang, Yutian Lin, Yu Wu

CVPR 2025posterarXiv:2503.00905

#2244

DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging

Zhu Liu, Zijun Wang, Jinyuan Liu et al.

#2245

Fine-grained Prototypical Voting with Heterogeneous Mixup for Semi-supervised 2D-3D Cross-modal Retrieval

Fan Zhang, Xian-Sheng Hua, Chong Chen et al.

CVPR 2025posterarXiv:2503.00147

#2246

Precise Event Spotting in Sports Videos: Solving Long-Range Dependency and Class Imbalance

Sanchayan Santra, Vishal Chudasama, Pankaj Wasnik et al.

CVPR 2025posterarXiv:2411.19895

#2247

GuardSplat: Efficient and Robust Watermarking for 3D Gaussian Splatting

Zixuan Chen, Guangcong Wang, Jiahao Zhu et al.

CVPR 2025posterarXiv:2503.01107

#2248

VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors

Juil Koo, Paul Guerrero, Chun-Hao P. Huang et al.

CVPR 2024posterarXiv:2401.08741

#2249

Fixed Point Diffusion Models

Luke Melas-Kyriazi, Xingjian Bai

CVPR 2025posterarXiv:2504.01204

#2250

Articulated Kinematics Distillation from Video Diffusion Models

Xuan Li, Qianli Ma, Tsung-Yi Lin et al.

#2251

AeSPa : Attention-guided Self-supervised Parallel Imaging for MRI Reconstruction

Jinho Joo, Hyeseong Kim, Hyeyeon Won et al.

CVPR 2025posterarXiv:2503.22262

#2252

Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion

Songsong Yu, Yuxin Chen, Zhongang Qi et al.

CVPR 2025posterarXiv:2503.08387

#2253

Recognition-Synergistic Scene Text Editing

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu et al.

CVPR 2025posterarXiv:2407.01330

#2254

A Lightweight UDF Learning Framework for 3D Reconstruction Based on Local Shape Functions

Jiangbei Hu, Yanggeng Li, Fei Hou et al.

CVPR 2025highlightarXiv:2506.06898

#2255

NSD-Imagery: A Benchmark Dataset for Extending fMRI Vision Decoding Methods to Mental Imagery

Reese Kneeland, Paul Scotti, Ghislain St-Yves et al.

#2256

Cheb-GR: Rethinking K-nearest Neighbor Search in Re-ranking for Person Re-identification

Jinxi Yang, He Li, Bo Du et al.

CVPR 2025posterarXiv:2503.19824

#2257

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

Jiazhi Guan, Kaisiyuan Wang, Zhiliang Xu et al.

CVPR 2025posterarXiv:2503.12821

#2258

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Mingyang Song, Xiaoye Qu, Jiawei Zhou et al.

CVPR 2025posterarXiv:2503.06960

#2259

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Xin Wen, Bingchen Zhao, Yilun Chen et al.

CVPR 2025posterarXiv:2503.14161

#2260

CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models

Yiqi Zhu, Ziyue Wang, Can Zhang et al.

CVPR 2025posterarXiv:2503.22725

#2261

Uncertainty Weighted Gradients for Model Calibration

Jinxu Lin, Linwei Tao, Minjing Dong et al.

#2262

RivuletMLP: An MLP-based Architecture for Efficient Compressed Video Quality Enhancement

Gang He, Weiran Wang, Guancheng Quan et al.

CVPR 2025posterarXiv:2412.16460

#2263

Positive2Negative: Breaking the Information-Lossy Barrier in Self-Supervised Single Image Denoising

Tong Li, Lizhi Wang, Zhiyuan Xu et al.

CVPR 2025posterarXiv:2407.03314

#2264

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

Zhantao Yang, Ruili Feng, Keyu Yan et al.

CVPR 2025posterarXiv:2503.13914

#2265

PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point Clouds

Barza Nisar, Steven L. Waslander

#2266

Spherical Manifold Guided Diffusion Model for Panoramic Image Generation

Xiancheng Sun, Mai Xu, Shengxi Li et al.

#2267

BiLoRA: Almost-Orthogonal Parameter Spaces for Continual Learning

Hao Zhu, Yifei Zhang, Junhao Dong et al.

CVPR 2025posterarXiv:2503.04446

#2268

SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity

Yijie Xu, Bolun Zheng, Wei Zhu et al.

#2269

Enhancing Diversity for Data-free Quantization

Kai Zhao, zhihao zhuang, Miao Zhang et al.

#2270

Identity-Clothing Similarity Modeling for Unsupervised Clothing Change Person Re-Identification

Zhiqi Pang, Junjie Wang, Lingling Zhao et al.

CVPR 2025posterarXiv:2504.06553

#2271

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

Yun Chang, Leonor Fermoselle, Duy Ta et al.

#2272

Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation

Jialai Wang, Yuxiao Wu, Weiye Xu et al.

CVPR 2025posterarXiv:2503.15686

#2273

Multi-focal Conditioned Latent Diffusion for Person Image Synthesis

Jiaqi Liu, Jichao Zhang, Paolo Rota et al.

CVPR 2025posterarXiv:2410.11374

#2274

Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing

Yoonjeon Kim, Soohyun Ryu, Yeonsung Jung et al.

CVPR 2025posterarXiv:2503.19776

#2275

Resilient Sensor Fusion Under Adverse Sensor Failures via Multi-Modal Expert Fusion

Konyul Park, Yecheol Kim, Daehun Kim et al.

CVPR 2025posterarXiv:2503.00495

#2276

Towards High-fidelity 3D Talking Avatar with Personalized Dynamic Texture

Xuanchen Li, Jianyu Wang, Yuhao Cheng et al.

#2277

Sensitivity-Aware Efficient Fine-Tuning via Compact Dynamic-Rank Adaptation

Tianran Chen, Jiarui Chen, Baoquan Zhang et al.

#2278

Less Attention is More: Prompt Transformer for Generalized Category Discovery

Wei Zhang, Baopeng Zhang, Zhu Teng et al.

CVPR 2025posterarXiv:2505.16376

#2279

DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos

Zijia Lu, ASM Iftekhar, Gaurav Mittal et al.

#2280

EvDiG: Event-guided Direct and Global Components Separation

xinyu zhou, Peiqi Duan, Boyu Li et al.

CVPR 2025posterarXiv:2506.03512

#2281

EDCFlow: Exploring Temporally Dense Difference Maps for Event-based Optical Flow Estimation

Daikun Liu, Lei Cheng, Teng Wang et al.

CVPR 2025posterarXiv:2504.08125

#2282

Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects

Shalini Maiti, Lourdes Agapito, Filippos Kokkinos

CVPR 2025posterarXiv:2410.11774

#2283

Fractal Calibration for Long-tailed Object Detection

Konstantinos Alexandridis, Ismail Elezi, Jiankang Deng et al.

CVPR 2025posterarXiv:2411.14762

#2284

Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction

Huiwon Jang, Sihyun Yu, Jinwoo Shin et al.

#2285

Enhanced then Progressive Fusion with View Graph for Multi-View Clustering

Zhibin Dong, Meng Liu, Siwei Wang et al.

CVPR 2025posterarXiv:2503.12840

#2286

Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics

Chen Liu, Liying Yang, Peike Li et al.

CVPR 2025posterarXiv:2501.12381

#2287

Parallel Sequence Modeling via Generalized Spatial Propagation Network

Hongjun Wang, Wonmin Byeon, Jiarui Xu et al.

#2288

Leveraging SD Map to Augment HD Map-based Trajectory Prediction

Zhiwei Dong, Ran Ding, Wei Li et al.

#2289

ICP: Immediate Compensation Pruning for Mid-to-high Sparsity

Xin Luo, Fu Xueming, Zihang Jiang et al.

CVPR 2025posterarXiv:2503.06277

#2290

STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification

Siyi Du, Xinzhe Luo, Declan ORegan et al.

#2291

Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection

Feng Yan, Xiaoheng Jiang, Yang Lu et al.

CVPR 2025posterarXiv:2504.02397

#2292

Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval

Boseung Jeong, Jicheol Park, Sungyeon Kim et al.

CVPR 2025posterarXiv:2503.18123

#2293

End-to-End Implicit Neural Representations for Classification

Alexander Gielisse, Jan van Gemert

CVPR 2025posterarXiv:2406.05704

#2294

Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation

Xinhao Zhong, Hao Fang, Bin Chen et al.

CVPR 2025posterarXiv:2503.18244

#2295

CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation

Jungsoo Lee, Debasmit Das, Munawar Hayat et al.

#2296

FedSPA: Generalizable Federated Graph Learning under Homophily Heterogeneity

Zihan Tan, Guancheng Wan, Wenke Huang et al.

#2297

Distilling Spatially-Heterogeneous Distortion Perception for Blind Image Quality Assessment

Xudong Li, Wenjie Nie, Yan Zhang et al.

CVPR 2025posterarXiv:2504.15159

#2298

Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration

Junyuan Deng, Xinyi Wu, Yongxing Yang et al.

CVPR 2025posterarXiv:2503.10468

#2299

OODD: Test-time Out-of-Distribution Detection with Dynamic Dictionary

Yifeng Yang, Lin Zhu, Zewen Sun et al.

CVPR 2025posterarXiv:2509.26025

#2300

PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution

Shian Du, Menghan Xia, Chang Liu et al.

CVPR 2025posterarXiv:2506.03737

#2301

ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices

Hao Yu, Tangyu Jiang, Shuning Jia et al.

CVPR 2025posterarXiv:2503.10597

#2302

GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling

Yang Zheng, Menglei Chai, Delio Vicini et al.

CVPR 2025posterarXiv:2505.13788

#2303

Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels

Yongshuo Zong, Qin ZHANG, DONGSHENG An et al.

CVPR 2025highlightarXiv:2503.08306

#2304

Reasoning in Visual Navigation of End-to-end Trained Agents: A Dynamical Systems Approach

Steeven JANNY, Hervé Poirier, Leonid Antsfeld et al.

CVPR 2025posterarXiv:2412.19206

#2305

NADER: Neural Architecture Design via Multi-Agent Collaboration

Zekang Yang, Wang ZENG, Sheng Jin et al.

#2306

GraphMimic: Graph-to-Graphs Generative Modeling from Videos for Policy Learning

Guangyan Chen, Te Cui, Meiling Wang et al.

CVPR 2025posterarXiv:2405.18029

#2307

Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers?

Zebin You, Xinyu Zhang, Hanzhong Guo et al.

CVPR 2025posterarXiv:2412.03178

#2308

Towards Understanding and Quantifying Uncertainty for Text-to-Image Generation

Gianni Franchi, Nacim Belkhir, Dat NGUYEN et al.

CVPR 2025posterarXiv:2504.00527

#2309

SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning

Fida Mohammad Thoker, Letian Jiang, Chen Zhao et al.

#2310

FedCALM: Conflict-aware Layer-wise Mitigation for Selective Aggregation in Deeper Personalized Federated Learning

Hao Zheng, Zhigang Hu, Boyu Wang et al.

CVPR 2025posterarXiv:2504.20468

#2311

Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception

Yuanchen Wu, Lu Zhang, Hang Yao et al.

#2312

UNICL-SAM: Uncertainty-Driven In-Context Segmentation with Part Prototype Discovery

Dianmo Sheng, Dongdong Chen, Zhentao Tan et al.

CVPR 2025posterarXiv:2411.12817

#2313

What Makes a Good Dataset for Knowledge Distillation?

Logan Frank, Jim Davis

CVPR 2025posterarXiv:2502.21130

#2314

Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning

Jiuyang Dong, Junjun Jiang, Kui Jiang et al.

CVPR 2025posterarXiv:2403.09055

#2315

SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion Models

Jaerin Lee, Daniel Jung, Kanggeon Lee et al.

CVPR 2025posterarXiv:2502.19937

#2316

Image Referenced Sketch Colorization Based on Animation Creation Workflow

Dingkun Yan, Xinrui Wang, Zhuoru Li et al.

CVPR 2025posterarXiv:2503.19232

#2317

HoGS: Unified Near and Far Object Reconstruction via Homogeneous Gaussian Splatting

Xinpeng Liu, Zeyi Huang, Fumio Okura et al.

CVPR 2025posterarXiv:2506.18335

#2318

Rethinking Decoder Design: Improving Biomarker Segmentation Using Depth-to-Space Restoration and Residual Linear Attention

Saad Wazir, Daeyoung Kim

CVPR 2025posterarXiv:2506.05934

#2319

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing

Yixuan Zhu, Haolin Wang, Shilin Ma et al.

#2320

Annotation Ambiguity Aware Semi-Supervised Medical Image Segmentation

Suruchi Kumari, Pravendra Singh

#2321

BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer

Yuzhou Liu, Lingjie Zhu, Hanqiao Ye et al.

CVPR 2025posterarXiv:2312.06085

#2322

SFDM: Robust Decomposition of Geometry and Reflectance for Realistic Face Rendering from Sparse-view Images

Daisheng Jin, Jiangbei Hu, Baixin Xu et al.

CVPR 2025posterarXiv:2404.00916

#2323

Gyro-based Neural Single Image Deblurring

Heemin Yang, Jaesung Rim, Seungyong Lee et al.

CVPR 2024posterarXiv:2406.02074

#2324

FaceCom: Towards High-fidelity 3D Facial Shape Completion via Optimization and Inpainting Guidance

Yinglong Li, Hongyu Wu, Wang et al.

CVPR 2025posterarXiv:2505.16971

#2325

UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation

Himangi Mittal, Peiye Zhuang, Hsin-Ying Lee et al.

CVPR 2025posterarXiv:2405.16071

#2326

DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution

Yuzhong Zhao, Feng Liu, Yue Liu et al.

CVPR 2025posterarXiv:2504.14860

#2327

Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer

Ziyi Liu, Yangcen Liu

CVPR 2025highlightarXiv:2412.09612

#2328

Olympus: A Universal Task Router for Computer Vision Tasks

Yuanze Lin, Yunsheng Li, Dongdong Chen et al.

CVPR 2025posterarXiv:2412.11423

#2329

Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Namhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn et al.

CVPR 2025posterarXiv:2306.11339

#2330

Masking meets Supervision: A Strong Learning Alliance

Byeongho Heo, Taekyung Kim, Sangdoo Yun et al.

#2331

Zero-shot RGB-D Point Cloud Registration with Pre-trained Large Vision Model

Haobo Jiang, Jin Xie, Jian Yang et al.

CVPR 2025posterarXiv:2411.18025

#2332

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

Jinneyong Kim, Seung-Hwan Baek

CVPR 2025posterarXiv:2504.09623

#2333

Ges3ViG : Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding

Atharv Mahesh Mane, Dulanga Weerakoon, Vigneshwaran Subbaraju et al.

CVPR 2025highlightarXiv:2503.19145

#2334

Compositional Caching for Training-free Open-vocabulary Attribute Detection

Marco Garosi, Alessandro Conti, Gaowen Liu et al.

#2335

Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute Recognition

Junyi Wu, Yan Huang, Min Gao et al.

CVPR 2025posterarXiv:2502.20924

#2336

Decoder Gradient Shield: Provable and High-Fidelity Prevention of Gradient-Based Box-Free Watermark Removal

Haonan An, Guang Hua, Zhengru Fang et al.

CVPR 2025posterarXiv:2411.19292

#2337

UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation

Yichong Lu, Yichi Cai, Shangzhan Zhang et al.

#2338

BrepGiff: Lightweight Generation of Complex B-rep with 3D GAT Diffusion

Hao Guo, Xiaoshui Huang, Hao jiacheng et al.

#2339

VODiff: Controlling Object Visibility Order in Text-to-Image Generation

Dong Liang, Jinyuan Jia, Yuhao Liu et al.

CVPR 2025posterarXiv:2509.00649

#2340

MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation

Aviral Chharia, Wenbo Gou, Haoye Dong

CVPR 2025posterarXiv:2503.00876

#2341

Improve Representation for Imbalanced Regression through Geometric Constraints

Zijian Dong, Yilei Wu, Chongyao Chen et al.

#2342

DriveScape: High-Resolution Driving Video Generation by Multi-View Feature Fusion

Wei Wu, Xi Guo, Weixuan TANG et al.

CVPR 2025posterarXiv:2503.00068

#2343

PI-HMR: Towards Robust In-bed Temporal Human Shape Reconstruction with Contact Pressure Sensing

Ziyu Wu, Yufan Xiong, Mengting Niu et al.

#2344

Previously on ... From Recaps to Story Summarization

Aditya Kumar Singh, Dhruv Srivastava, Makarand Tapaswi

#2345

Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image Compression

Jinchang Xu, Shaokang Wang, Jintao Chen et al.

#2346

Zero-Shot Blind-spot Image Denoising via Implicit Neural Sampling

Yuhui Quan, Tianxiang Zheng, Zhiyuan Ma et al.

CVPR 2024posterarXiv:2406.03625

#2347

Degrees of Freedom Matter: Inferring Dynamics from Point Trajectories

Yan Zhang, Sergey Prokudin, Marko Mihajlovic et al.

#2348

Efficient Video Super-Resolution for Real-time Rendering with Decoupled G-buffer Guidance

Mingjun Zheng, Long Sun, Jiangxin Dong et al.

CVPR 2025posterarXiv:2503.06369

#2349

Spectral State Space Model for Rotation-Invariant Visual Representation Learning

Sahar Dastani, Ali Bahri, Moslem Yazdanpanah et al.

CVPR 2025posterarXiv:2505.10679

#2350

Are Spatial-Temporal Graph Convolution Networks for Human Action Recognition Over-Parameterized?

Jianyang Xie, Yitian Zhao, Yanda Meng et al.

CVPR 2025posterarXiv:2503.18987

#2351

Balanced Direction from Multifarious Choices: Arithmetic Meta-Learning for Domain Generalization

Xiran Wang, Jian Zhang, Lei Qi et al.

#2352

Shading Meets Motion: Self-supervised Indoor 3D Reconstruction Via Simultaneous Shape-from-Shading and Structure-from-Motion

Guoyu Lu

CVPR 2025posterarXiv:2411.18970

#2353

FiRe: Fixed-points of Restoration Priors for Solving Inverse Problems

Matthieu Terris, Ulugbek Kamilov, Thomas Moreau

CVPR 2025posterarXiv:2505.21591

#2354

Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning

Maosen Zhao, Pengtao Chen, Chong Yu et al.

#2355

ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting

Yizhe Tang, Zhimin Sun, Yuzhen Du et al.

CVPR 2025highlightarXiv:2503.19904

#2356

Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

Zihang Lai, Andrea Vedaldi

CVPR 2024posterarXiv:2404.14006

#2357

Distilled Datamodel with Reverse Gradient Matching

Jingwen Ye, Ruonan Yu, Songhua Liu et al.

CVPR 2025posterarXiv:2503.15851

#2358

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Zhenglin Zhou, Fan Ma, Hehe Fan et al.

CVPR 2024highlightarXiv:2406.12121

#2359

TutteNet: Injective 3D Deformations by Composition of 2D Mesh Deformations

Bo Sun, Thibault Groueix, Chen Song et al.

#2360

OW-OVD: Unified Open World and Open Vocabulary Object Detection

Xing Xi, Yangyang Huang, Ronghua Luo et al.

#2361

DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Post-Capture Refocusing, Defocus Rendering and Blur Removal

Yujie Wang, Praneeth Chakravarthula, Baoquan Chen

#2362

DFM: Differentiable Feature Matching for Anomaly Detection

Wu Sheng, Yimi Wang, Xudong Liu et al.

#2363

LOD-GS: Achieving Levels of Detail using Scalable Gaussian Soup

Jianxiong Shen, Yue Qian, Xiaohang Zhan

#2364

Face Forgery Video Detection via Temporal Forgery Cue Unraveling

Zonghui Guo, YingJie Liu, Jie Zhang et al.

CVPR 2025highlightarXiv:2411.08753

#2365

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos

Sagnik Majumder, Tushar Nagarajan, Ziad Al-Halah et al.

CVPR 2024posterarXiv:2306.13325

#2366

Differentiable Display Photometric Stereo

Seokjun Choi, Seungwoo Yoon, Giljoo Nam et al.

CVPR 2025posterarXiv:2411.16503

#2367

Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis

Boming Miao, Chunxiao Li, Xiaoxiao Wang et al.

CVPR 2025highlightarXiv:2503.15005

#2368

Universal Scene Graph Generation

Shengqiong Wu, Hao Fei, Tat-seng Chua

CVPR 2025posterarXiv:2506.10286

#2369

HalLoc: Token-level Localization of Hallucinations for Vision Language Models

Eunkyu Park, Minyeong Kim, Gunhee Kim

#2370

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models

Dongnan Gui, Xun Guo, Wengang Zhou et al.

CVPR 2025posterarXiv:2502.19754

#2371

Finding Local Diffusion Schrödinger Bridge using Kolmogorov-Arnold Network

Xingyu Qiu, Mengying Yang, Xinghua Ma et al.

CVPR 2025highlightarXiv:2411.13059

#2372

Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation

Rohith Peddi, Saurabh ., Ayush Abhay Shrivastava et al.

CVPR 2025posterarXiv:2502.07782

#2373

A Flag Decomposition for Hierarchical Datasets

Nathan Mankovich, Ignacio Santamaria, Gustau Camps-Valls et al.

CVPR 2025posterarXiv:2503.23702

#2374

3D Dental Model Segmentation with Geometrical Boundary Preserving

Shufan Xi, Zexian Liu, Junlin Chang et al.

CVPR 2025posterarXiv:2504.09097

#2375

BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting

Jeongwan On, Kyeonghwan Gwak, Gunyoung Kang et al.

#2376

From Laboratory to Real World: A New Benchmark Towards Privacy-Preserved Visible-Infrared Person Re-Identification

Yan Jiang, Hao Yu, Xu Cheng et al.

#2377

4D-Fly: Fast 4D Reconstruction from a Single Monocular Video

Diankun Wu, Fangfu Liu, Yi-Hsin Hung et al.

CVPR 2025posterarXiv:2503.19897

#2378

Scaling Down Text Encoders of Text-to-Image Diffusion Models

Lifu Wang, Daqing Liu, Xinchen Liu et al.

CVPR 2025posterarXiv:2503.15211

#2379

GO-N3RDet: Geometry Optimized NeRF-enhanced 3D Object Detector

Zechuan Li, Hongshan Yu, Yihao Ding et al.

CVPR 2025posterarXiv:2503.15300

#2380

SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes

Weixiao Gao, Liangliang Nan, Hugo Ledoux

#2381

Simpler Diffusion: 1.5 FID on ImageNet512 with Pixel-space Diffusion

Emiel Hoogeboom, Thomas Mensink, Jonathan Heek et al.

CVPR 2024posterarXiv:2403.10099

#2382

KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation

Ruida Zhang, Chenyangguang Zhang, Yan Di et al.

#2383

GG-SSMs: Graph-Generating State Space Models

Nikola Zubic, Davide Scaramuzza

CVPR 2024posterarXiv:2406.10935

#2384

Pick-or-Mix: Dynamic Channel Sampling for ConvNets

Ashish Kumar, Daneul Kim, Jaesik Park et al.

CVPR 2025highlightarXiv:2503.04475

#2385

ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images

Yanqing Shen, Turcan Tuna, Marco Hutter et al.

#2386

FFR: Frequency Feature Rectification for Weakly Supervised Semantic Segmentation

Ziqian Yang, Xinqiao Zhao, Xiaolei Wang et al.

#2387

Action Detail Matters: Refining Video Recognition with Local Action Queries

Mengmeng Wang, Zeyi Huang, Xiangjie Kong et al.

CVPR 2025posterarXiv:2506.01304

#2388

SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training Cost

Haiyang Mei, Pengyu Zhang, Mike Zheng Shou

CVPR 2025posterarXiv:2502.11925

#2389

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs

Yi Fang, Bowen Jin, Jiacheng Shen et al.

CVPR 2025posterarXiv:2501.12216

#2390

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

Uri Gadot, Shie Mannor, Assaf Shocher et al.

CVPR 2025posterarXiv:2506.07857

#2391

LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point Clouds

Zihui Zhang, Weisheng Dai, Hongtao Wen et al.

CVPR 2025posterarXiv:2504.02522

#2392

Charm: The Missing Piece in ViT Fine-Tuning for Image Aesthetic Assessment

Fatemeh Behrad, Tinne Tuytelaars, Johan Wagemans

CVPR 2025highlightarXiv:2503.02745

#2393

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points

Qirui Huang, Runze Zhang, Kangjun Liu et al.

CVPR 2025posterarXiv:2411.16760

#2394

LibraGrad: Balancing Gradient Flow for Universally Better Vision Transformer Attributions

Faridoun Mehri, Mahdieh Baghshah, Mohammad Taher Pilehvar

CVPR 2025posterarXiv:2503.04829

#2395

StickMotion: Generating 3D Human Motions by Drawing a Stickman

Tao Wang, Zhihua Wu, Qiaozhi He et al.

CVPR 2025posterarXiv:2411.19041

#2396

TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition

yilong wang, Zilin Gao, Qilong Wang et al.

#2397

Reproducible Vision-Language Models Meet Concepts Out of Pre-Training

Ziliang Chen, Xin Huang, Xiaoxuan Fan et al.

CVPR 2025posterarXiv:2412.19853

#2398

Conditional Balance: Improving Multi-Conditioning Trade-Offs in Image Generation

Nadav Z. Cohen, Oron Nir, Ariel Shamir

CVPR 2025highlightarXiv:2503.03265

#2399

Optimizing for the Shortest Path in Denoising Diffusion Model

Ping Chen, Xingpeng Zhang, Zhaoxiang Liu et al.

#2400

GPAvatar: High-fidelity Head Avatars by Learning Efficient Gaussian Projections

Weiqi Feng, Dong Han, Zekang Zhou et al.