2025 Highlight Papers

ICCV 2025highlightarXiv:2503.07098

OmniSAM: Omnidirectional Segment Anything Model for UDA in Panoramic Semantic Segmentation

Ding Zhong, Xu Zheng, Chenfei Liao et al.

CVPR 2025highlightarXiv:2412.16604

OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable Capabilities

Suyoung Lee, JAEYOUNG CHUNG, Kihoon Kim et al.

One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency

Li Jin, Yujie Wang, Wenzheng Chen et al.

CVPR 2025highlightarXiv:2503.01214

One-Step Event-Driven High-Speed Autofocus

Yuhan Bao, Shaohua Gao, Wenyong Li et al.

ICCV 2025highlightarXiv:2505.23617

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

Chenhao Zheng, Jieyu Zhang, Mohammadreza Salehi et al.

On the Provable Importance of Gradients for Autonomous Language-Assisted Image Clustering

Bo Peng, Jie Lu, Guangquan Zhang et al.

On the Recovery of Cameras from Fundamental Matrices

Rakshith Madhavan, Federica Arrigoni

Open-Canopy: Towards Very High Resolution Forest Monitoring

Fajwel Fogel, Yohann PERRON, Nikola Besic et al.

CVPR 2025highlightarXiv:2412.00115

OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation

Hui Li, Mingwang Xu, Qingkun Su et al.

Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces

Chenyangguang Zhang, Alexandros Delitzas, Fangjinhua Wang et al.

OPTICAL: Leveraging Optimal Transport for Contribution Allocation in Dataset Distillation

Xiao Cui, Yulei Qin, Wengang Zhou et al.

OpticalNet: An Optical Imaging Dataset and Benchmark Beyond the Diffraction Limit

Benquan Wang, Ruyi An, Jin-Kyu So et al.

CVPR 2025highlightarXiv:2503.03265

Optimizing for the Shortest Path in Denoising Diffusion Model

Ping Chen, Xingpeng Zhang, Zhaoxiang Liu et al.

CVPR 2025highlightarXiv:2403.11295

Order-One Rolling Shutter Cameras

Marvin Anas Hahn, Kathlén Kohn, Orlando Marigliano et al.

O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models

Ashshak Sharifdeen, Muhammad Akhtar Munir, Sanoojan Baliah et al.

ICCV 2025highlightarXiv:2511.00682

Outlier-Aware Post-Training Quantization for Image Super-Resolution

Hailing Wang, Jianglin Lu, Yitian Zhang et al.

Overcoming Shortcut Problem in VLM for Robust Out-of-Distribution Detection

Zhuo Xu, Xiang Xiang, Yifan Liang

ICCV 2025highlightarXiv:2411.15867

PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs

Teng Zhou, Xiaoyu Zhang, Yongchuan Tang

CVPR 2025highlightarXiv:2503.18420

Panorama Generation From NFoV Image Done Right

Dian Zheng, Cheng Zhang, Xiao-Ming Wu et al.

Parallelized Autoregressive Visual Generation

Yuqing Wang, Shuhuai Ren, Zhijie Lin et al.

CVPR 2025highlightarXiv:2412.18608

PartGen: Part-level 3D Generation and Reconstruction with Multi-view Diffusion Models

Minghao Chen, Roman Shapovalov, Iro Laina et al.

CVPR 2025highlightarXiv:2503.20308

Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

Lee Chae-Yeon, Oh Hyun-Bin, Han EunGi et al.

CVPR 2025highlightarXiv:2503.20779

PGC: Physics-Based Gaussian Cloth from a Single Pose

Michelle Guo, Matt Jen-Yuan Chiang, Igor Santesteban et al.

ICCV 2025highlightarXiv:2502.11079

Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

Lijie Liu, Tianxiang Ma, Bingchuan Li et al.

PhD: A ChatGPT-Prompted Visual Hallucination Evaluation Dataset

Jiazhen Liu, Yuhan Fu, Ruobing Xie et al.

CVPR 2025highlightarXiv:2502.07785

Pippo: High-Resolution Multi-View Humans from a Single Image

Yash Kant, Ethan Weber, Jin Kyu Kim et al.

Planar Affine Rectification from Local Change of Scale and Orientation

Yuval Nissan, Marc Pollefeys, Daniel Barath

CVPR 2025highlightarXiv:2412.03451

PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes

Bin Tan, Rui Yu, Yujun Shen et al.

ICCV 2025highlightarXiv:2503.04351

PLMP - Point-Line Minimal Problems for Projective SfM

Kim Kiehn, Albin Ahlbäck, Kathlén Kohn

CVPR 2025highlightarXiv:2505.21943

Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting

Wei Lin, Chenyang ZHAO, Antoni B. Chan

ICCV 2025highlightarXiv:2507.17268

PolarAnything: Diffusion-based Polarimetric Image Synthesis

Kailong Zhang, Youwei Lyu, Heng Guo et al.

Polarized Color Screen Matting

Kenji Enomoto, Scott Cohen, Brian Price et al.

ICCV 2025highlightarXiv:2504.04841

Prior2Former - Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation

Sebastian Schmidt, Julius Koerner, Dominik Fuchsgruber et al.

ICCV 2025highlightarXiv:2506.23897

PriOr-Flow: Enhancing Primitive Panoramic Optical Flow with Orthogonal View

Longliang Liu, Miaojie Feng, Junda Cheng et al.

Prior-free 3D Object Tracking

Xiuqiang Song, Li Jin, Zhengxian Zhang et al.

ICCV 2025highlightarXiv:2412.07371

PRM: Photometric Stereo based Large Reconstruction Model

Wenhang Ge, Jiantao Lin, Guibao SHEN et al.

Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

Ryan Ramos, Vladan Stojnić, Giorgos Kordopatis-Zilos et al.

ICCV 2025highlightarXiv:2508.10637

ProGait: A Multi-Purpose Video Dataset and Benchmark for Transfemoral Prosthesis Users

Xiangyu Yin, Boyuan Yang, Weichen Liu et al.

ICCV 2025highlightarXiv:2507.10223

ICCV 2025highlightarXiv:2503.16616

Progressive Test Time Energy Adaptation for Medical Image Segmentation

Xiaoran Zhang, Byung-Woo Hong, Hyoungseob Park et al.

CVPR 2025highlightarXiv:2503.09487

Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness

Beier Zhu, Jiequan Cui, Hanwang Zhang et al.

CVPR 2025highlightarXiv:2503.19718

QuCOOP: A Versatile Framework for Solving Composite and Binary-Parametrised Problems on Quantum Annealers

Natacha Kuete Meli, Vladislav Golyanik, Marcel Seelbach Benkner et al.

Question-Aware Gaussian Experts for Audio-Visual Question Answering

Hongyeob Kim, Inyoung Jung, Dayoon Suh et al.

ICCV 2025highlightarXiv:2502.01157

Radiant Foam: Real-Time Differentiable Ray Tracing

Shrisudhan Govindarajan, Daniel Rebain, Kwang Moo Yi et al.

RAGDiffusion: Faithful Cloth Generation via External Knowledge Assimilation

Yuhan Li, Xianfeng Tan, Wenxiang Shang et al.

RALoc: Enhancing Outdoor LiDAR Localization via Rotation Awareness

Yuyang Yang, Wen Li, Sheng Ao et al.

ICCV 2025highlightarXiv:2508.09830

RayletDF: Raylet Distance Fields for Generalizable 3D Surface Reconstruction from Point Clouds or Gaussians

Shenxing Wei, Jinxi Li, Yafei YANG et al.

Realistic Test-Time Adaptation of Vision-Language Models

Maxime Zanella, Clément Fuchs, Christophe De Vleeschouwer et al.

CVPR 2025highlightarXiv:2501.03729

Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures

Guoxing Sun, Rishabh Dabral, Heming Zhu et al.

CVPR 2025highlightarXiv:2504.12909

Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPs

Youyi Zhan, Tianjia Shao, Yin Yang et al.