2025 Highlight Papers

CVPR 2025highlightarXiv:2503.08306

Reasoning in Visual Navigation of End-to-end Trained Agents: A Dynamical Systems Approach

Steeven JANNY, Hervé Poirier, Leonid Antsfeld et al.

CVPR 2025highlightarXiv:2412.17806

Reconstructing People, Places, and Cameras

Lea Müller, Hongsuk Choi, Anthony Zhang et al.

ICCV 2025highlightarXiv:2507.00698

Rectifying Magnitude Neglect in Linear Attention

Qihang Fan, Huaibo Huang, Yuang Ai et al.

CVPR 2025highlightarXiv:2404.03632

Reference-Based 3D-Aware Image Editing with Triplanes

Bahri Batuhan Bilecen, Yiğit Yalın, Ning Yu et al.

ICCV 2025highlightarXiv:2507.01496

ReFlex: Text-Guided Editing of Real Images in Rectified Flow via Mid-Step Feature Extraction and Attention Adaptation

Jimyeong Kim, Jungwon Park, Yeji Song et al.

Region-based Cluster Discrimination for Visual Representation Learning

Yin Xie, Kaicheng Yang, Xiang An et al.

Registration beyond Points: General Affine Subspace Alignment via Geodesic Distance on Grassmann Manifold

Jaeho Shin, Hyeonjae Gil, Junwoo Jang et al.

CVPR 2025highlightarXiv:2501.05446

Relative Pose Estimation through Affine Corrections of Monocular Depth Priors

Yifan Yu, Shaohui Liu, Rémi Pautrat et al.

ReME: A Data-Centric Framework for Training-Free Open-Vocabulary Segmentation

Xiwei Xuan, Ziquan Deng, Kwan-Liu Ma

ICCV 2025highlightarXiv:2506.21233

ReNeg: Learning Negative Embedding with Reward Guidance

Xiaomin Li, yixuan liu, Takashi Isobe et al.

CVPR 2025highlightarXiv:2412.19637

ICCV 2025highlightarXiv:2507.21049

Rep-MTL: Unleashing the Power of Representation-level Task Saliency for Multi-Task Learning

Zedong Wang, Siyuan Li, Dan Xu

ICCV 2025highlightarXiv:2507.20117

RESCUE: Crowd Evacuation Simulation via Controlling SDM-United Characters

Xiaolin Liu, Tianyi zhou, Hongbo Kang et al.

ResidualViT for Efficient Temporally Dense Video Encoding

Mattia Soldan, Fabian Caba Heilbron, Bernard Ghanem et al.

Rethinking DPO-style Diffusion Aligning Frameworks

XUN WU, Shaohan Huang, Lingjie Jiang et al.

ICCV 2025highlightarXiv:2508.06640

Rethinking Key-frame-based Micro-expression Recognition: A Robust and Accurate Framework Against Key-frame Errors

Zheyuan Zhang, Weihao Tang, Hong Chen

Rethinking Personalized Aesthetics Assessment: Employing Physique Aesthetics Assessment as An Exemplification

Haobin Zhong, Shuai He, Anlong Ming et al.

ReTracker: Exploring Image Matching for Robust Online Any Point Tracking

Dongli Tan, Xingyi He, Sida Peng et al.

Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition

Hongda Liu, Yunfan Liu, Min Ren et al.

CVPR 2025highlightarXiv:2410.23132

Revisiting MAE Pre-training for 3D Medical Image Segmentation

Tassilo Wald, Constantin Ulrich, Stanislav Lukyanenko et al.

CVPR 2025highlightarXiv:2503.12886

RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head Avatars

Linzhou Li, Yumeng Li, Yanlin Weng et al.

RhythmGuassian: Repurposing Generalizable Gaussian Model For Remote Physiological Measurement

Hao LU, Yuting Zhang, Jiaqi Tang et al.

ICCV 2025highlightarXiv:2506.22802

Riemannian-Geometric Fingerprints of Generative Models

Hae Jin Song, Laurent Itti

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

Tianyu Yu, Haoye Zhang, Qiming Li et al.

CVPR 2025highlightarXiv:2405.17220

CVPR 2025highlightarXiv:2411.17662

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

Raktim Gautam Goswami, Prashanth Krishnamurthy, Yann LeCun et al.

CVPR 2025highlightarXiv:2504.13059

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

Yao Mu, Tianxing Chen, Zanxin Chen et al.

ROLL: Robust Noisy Pseudo-label Learning for Multi-View Clustering with Noisy Correspondence

Yuan Sun, Yongxiang Li, Zhenwen Ren et al.

CVPR 2025highlightarXiv:2503.19592

SACB-Net: Spatial-awareness Convolutions for Medical Image Registration

Xinxing Cheng, Tianyang Zhang, Wenqi Lu et al.

SAC-GNC: SAmple Consensus for adaptive Graduated Non-Convexity

Valter Piedade, Chitturi Sidhartha, José Gaspar et al.

SAFT: Shape and Appearance of Fabrics from Template via Differentiable Physical Simulations from Monocular Video

David Stotko, Reinhard Klein

CVPR 2025highlightarXiv:2503.15934

SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer

Hongda Liu, Longguang Wang, Ye Zhang et al.

Samba: A Unified Mamba-based Framework for General Salient Object Detection

Jiahao He, Keren Fu, Xiaohong Liu et al.

CVPR 2025highlightarXiv:2411.17646

SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation

Claudia Cuttano, Gabriele Trivigno, Gabriele Rosi et al.

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

Junsong Chen, Shuchen Xue, Yuyang Zhao et al.

ICCV 2025highlightarXiv:2503.09641

CVPR 2025highlightarXiv:2502.07814

Satellite Observations Guided Diffusion Model for Accurate Meteorological States at Arbitrary Resolution

Siwei Tu, Ben Fei, Weidong Yang et al.

Scalable Dual Fingerprinting for Hierarchical Attribution of Text-to-Image Models

Jianwei Fei, Yunshu Dai, Peipeng Yu et al.

Scaling Inference Time Compute for Diffusion Models

Nanye Ma, Shangyuan Tong, Haolin Jia et al.

ICCV 2025highlightarXiv:2504.01017

Scaling Language-Free Visual Representation Learning

David Fan, Shengbang Tong, Jiachen Zhu et al.

CVPR 2025highlightarXiv:2503.19903

Scaling Vision Pre-Training to 4K Resolution

Baifeng Shi, Boyi Li, Han Cai et al.

ICCV 2025highlightarXiv:2412.18645

Scendi Score: Prompt‑Aware Diversity Evaluation via Schur Complement of CLIP Embeddings

Azim Ospanov, Mohammad Jalali, Farzan Farnia

Scene-Centric Unsupervised Panoptic Segmentation

Oliver Hahn, Christoph Reich, Nikita Araslanov et al.

CVPR 2025highlightarXiv:2504.01955

ICCV 2025highlightarXiv:2503.16289

SceneMI: Motion In-betweening for Modeling Human-Scene Interaction

Inwoo Hwang, Bing Zhou, Young Min Kim et al.

SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation

Shiqi Huang, Shuting He, Huaiyuan Qin et al.

CVPR 2025highlightarXiv:2503.04119

SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer

Chunnan Shang, Zhizhong Wang, Hongwei Wang et al.

CVPR 2025highlightarXiv:2503.06965

SeCap: Self-Calibrating and Adaptive Prompts for Cross-view Person Re-Identification in Aerial-Ground Networks

Shining Wang, Yunlong Wang, Ruiqi Wu et al.

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

Jianyi Wang, Zhijie Lin, Meng Wei et al.

CVPR 2025highlightarXiv:2501.01320

Seeing More with Less: Human-like Representations in Vision Models

Andrey Gizdov, Shimon Ullman, Daniel Harari

ICCV 2025highlightarXiv:2505.15123

Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding

Huy Ta, Duy Anh Huynh, Yutong Xie et al.

SEGA: A Stepwise Evolution Paradigm for Content-Aware Layout Generation with Design Prior

Bo Zhao, Haoran Wang, Jinghui Wang et al.

Self-Calibrating Gaussian Splatting for Large Field-of-View Reconstruction

Youming Deng, Wenqi Xian, Guandao Yang et al.