Most Cited ICCV &quot;attention localization&quot; Papers

ICCV 2025posterarXiv:2503.13025

#1202

PoseSyn: Synthesizing Diverse 3D Pose Data from In-the-Wild 2D Data

CHANGHEE YANG, Hyeonseop Song, Seokhun Choi et al.

ICCV 2025posterarXiv:2508.04122

#1203

Conditional Latent Diffusion Models for Zero-Shot Instance Segmentation

Maximilian Ulmer, Wout Boerdijk, Rudolph Triebel et al.

ICCV 2025highlightarXiv:2511.00682

#1204

Outlier-Aware Post-Training Quantization for Image Super-Resolution

Hailing Wang, Jianglin Lu, Yitian Zhang et al.

ICCV 2025highlightarXiv:2507.21049

#1205

Rep-MTL: Unleashing the Power of Representation-level Task Saliency for Multi-Task Learning

Zedong Wang, Siyuan Li, Dan Xu

ICCV 2025posterarXiv:2503.07979

#1206

Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning

Haoran Chen, Ping Wang, Zihan Zhou et al.

ICCV 2025posterarXiv:2507.12135

#1207

Learning Pixel-adaptive Multi-layer Perceptrons for Real-time Image Enhancement

Junyu Lou, Xiaorui Zhao, Kexuan Shi et al.

ICCV 2025posterarXiv:2507.21924

#1208

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

Tianhong Gao, Yannian Fu, Weiqun Wu et al.

ICCV 2025posterarXiv:2501.06927

#1209

CULTURE3D: A Large-Scale and Diverse Dataset of Cultural Landmarks and Terrains for Gaussian-Based Scene Rendering

xinyi zheng, Steve Zhang, Weizhe Lin et al.

ICCV 2025posterarXiv:2411.16167

#1210

Mind the Cost of Scaffold! Benign Clients May Even Become Accomplices of Backdoor Attack

Xingshuo Han, Xuanye Zhang, Xiang Lan et al.

ICCV 2025posterarXiv:2507.19908

#1211

TrackAny3D: Transferring Pretrained 3D Models for Category-unified 3D Point Cloud Tracking

Mengmeng Wang, Haonan Wang, Yulong Li et al.

ICCV 2025posterarXiv:2507.21960

#1212

PanoSplatt3R: Leveraging Perspective Pretraining for Generalized Unposed Wide-Baseline Panorama Reconstruction

Jiahui Ren, Mochu Xiang, Jiajun Zhu et al.

ICCV 2025posterarXiv:2503.17695

#1213

MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion

Yikun Ma, Yiqing Li, Jiawei Wu et al.

ICCV 2025posterarXiv:2509.26231

#1214

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

Jiayi Guo, Chuanhao Yan, Xingqian Xu et al.

ICCV 2025posterarXiv:2502.05130

#1215

Latent Swap Joint Diffusion for 2D Long-Form Latent Generation

Yusheng Dai, Chenxi Wang, Chang Li et al.

ICCV 2025posterarXiv:2409.17981

#1216

BlinkTrack: Feature Tracking over 80 FPS via Events and Images

Yichen Shen, Yijin Li, Shuo Chen et al.

ICCV 2025posterarXiv:2508.15439

#1217

Aligning Moments in Time using Video Queries

Yogesh Kumar, Uday Agarwal, Manish Gupta et al.

ICCV 2025posterarXiv:2510.11107

#1218

MoMaps: Semantics-Aware Scene Motion Generation with Motion Maps

Jiahui Lei, Kyle Genova, George Kopanas et al.

ICCV 2025posterarXiv:2412.06080

#1219

GVDepth: Zero-Shot Monocular Depth Estimation for Ground Vehicles based on Probabilistic Cue Fusion

Karlo Koledic, Luka Petrovic, Ivan Marković et al.

ICCV 2025posterarXiv:2411.06869

#1220

CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models

Junho Kim, Hyungjin Chung, Byung-Hoon Kim

ICCV 2025posterarXiv:2506.06854

#1221

DONUT: A Decoder-Only Model for Trajectory Prediction

Markus Knoche, Daan de Geus, Bastian Leibe

ICCV 2025posterarXiv:2503.06089

#1222

Fish2Mesh Transformer: 3D Human Mesh Recovery from Egocentric Vision

Tianma Shen, Aditya Shrish Puranik, James Vong et al.

ICCV 2025posterarXiv:2506.22800

#1223

RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors

Sicong Du, Jiarun Liu, Qifeng Chen et al.

ICCV 2025posterarXiv:2508.04090

#1224

Bridging Diffusion Models and 3D Representations: A 3D Consistent Super-Resolution Framework

Yi-Ting Chen, Ting-Hsuan Liao, Pengsheng Guo et al.

ICCV 2025posterarXiv:2509.20022

#1225

PS3: A Multimodal Transformer Integrating Pathology Reports with Histology Images and Biological Pathways for Cancer Survival Prediction

Manahil Raza, Ayesha Azam, Talha Qaiser et al.

ICCV 2025posterarXiv:2508.06895

#1226

BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models

Jianting Tang, Yubo Wang, Haoyu Cao et al.

ICCV 2025posterarXiv:2508.01728

#1227

Granular Concept Circuits: Toward a Fine-Grained Circuit Discovery for Concept Representations

Dahee Kwon, Sehyun Lee, Jaesik Choi

ICCV 2025posterarXiv:2508.04681

#1228

Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions

Liang Xu, Chengqun Yang, Zili Lin et al.

ICCV 2025posterarXiv:2504.13490

#1229

Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing

Joowon Kim, Ziseok Lee, Donghyeon Cho et al.

ICCV 2025posterarXiv:2507.19188

#1230

VisHall3D: Monocular Semantic Scene Completion from Reconstructing the Visible Regions to Hallucinating the Invisible Regions

Haoang Lu, Yuanqi Su, Xiaoning Zhang et al.

#1231

DICE: Staleness-Centric Optimizations for Parallel Diffusion MoE Inference

Jiajun Luo, Lizhuo Luo, Jianru Xu et al.

ICCV 2025posterarXiv:2507.05678

#1232

LiON-LoRA: Rethinking LoRA Fusion to Unify Controllable Spatial and Temporal Generation for Video Diffusion

Yisu Zhang, Chenjie Cao, Chaohui Yu et al.

ICCV 2025highlightarXiv:2507.23284

#1233

Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval

Dohwan Ko, Ji Soo Lee, Minhyuk Choi et al.

ICCV 2025posterarXiv:2508.09973

#1234

PERSONA: Personalized Whole-Body 3D Avatar with Pose-Driven Deformations from a Single Image

Geonhee Sim, Gyeongsik Moon

ICCV 2025posterarXiv:2510.21114

#1235

Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts

Yanguang Sun, Jiawei Lian, jian Yang et al.

ICCV 2025posterarXiv:2412.06458

#1236

Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models

Wei Suo, Ji Ma, Mengyang Sun et al.

#1237

FPEM: Face Prior Enhanced Facial Attractiveness Prediction for Live Videos with Face Retouching

Hui Li, Xiaoyu Ren, Hongjiu Yu et al.

ICCV 2025posterarXiv:2508.05123

#1238

Latent Expression Generation for Referring Image Segmentation and Grounding

Seonghoon Yu, Junbeom Hong, Joonseok Lee et al.

#1239

Breaking Rectangular Shackles: Cross-View Object Segmentation for Fine-Grained Object Geo-Localization

Qingwang Zhang, Yingying Zhu

#1240

Pseudo-SD: Pseudo Controlled Stable Diffusion for Semi-Supervised and Cross-Domain Semantic Segmentation

Dong Zhao, Qi Zang, Shuang Wang et al.

ICCV 2025posterarXiv:2507.14807

#1241

Seeing Through Deepfakes: A Human-Inspired Framework for Multi-Face Detection

Juan Hu, Shaojing Fan, Terence Sim

ICCV 2025posterarXiv:2506.23152

#1242

DexH2R: A Benchmark for Dynamic Dexterous Grasping in Human-to-Robot Handover

Youzhuo Wang, jiayi ye, Chuyang Xiao et al.

ICCV 2025posterarXiv:2507.16251

#1243

HoliTracer: Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery

Yu Wang, Bo Dang, Wanchun Li et al.

ICCV 2025posterarXiv:2507.18331

#1244

Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction

Runmin Zhang, Zhu Yu, Si-Yuan Cao et al.

ICCV 2025posterarXiv:2507.12933

#1245

DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization

Dongyeun Lee, jiwan hur, Hyounguk Shon et al.

ICCV 2025posterarXiv:2504.13621

#1246

Visual Intention Grounding for Egocentric Assistants

Pengzhan Sun, Junbin Xiao, Tze Ho Elden Tse et al.

ICCV 2025posterarXiv:2501.01529

#1247

SAFER: Sharpness Aware layer-selective Finetuning for Enhanced Robustness in vision transformers

Bhavna Gopal, Huanrui Yang, Mark Horton et al.

ICCV 2025posterarXiv:2507.05256

#1248

SegmentDreamer: Towards High-fidelity Text-to-3D Synthesis with Segmented Consistency Trajectory Distillation

Jiahao Zhu, Zixuan Chen, Guangcong Wang et al.

ICCV 2025posterarXiv:2412.11586

#1249

StrandHead: Text to Hair-Disentangled 3D Head Avatars Using Human-Centric Priors

Xiaokun Sun, Zeyu Cai, Ying Tai et al.

ICCV 2025posterarXiv:2512.14601

#1250

FakeRadar: Probing Forgery Outliers to Detect Unknown Deepfake Videos

Zhaolun Li, Jichang Li, Yinqi Cai et al.

ICCV 2025posterarXiv:2508.01852

#1251

Context Guided Transformer Entropy Modeling for Video Compression

Junlong Tong, Wei Zhang, Yaohui Jin et al.

ICCV 2025posterarXiv:2508.02134

#1252

Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference

KUO WANG, Quanlong Zheng, Junlin Xie et al.

ICCV 2025posterarXiv:2502.09660

#1253

Towards Fine-grained Interactive Segmentation in Images and Videos

Yuan Yao, Qiushi Yang, Miaomiao Cui et al.

#1254

Augmented and Softened Matching for Unsupervised Visible-Infrared Person Re-Identification

Zhiqi Pang, Chunyu Wang, Lingling Zhao et al.

ICCV 2025posterarXiv:2503.08737

#1255

Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models

In Cho, Youngbeom Yoo, Subin Jeon et al.

ICCV 2025posterarXiv:2412.18675

#1256

TAB: Transformer Attention Bottlenecks enable User Intervention and Debugging in Vision-Language Models

Pooyan Rahmanzadehgervi, Hung Nguyen, Rosanne Liu et al.

#1257

SL2A-INR: Single-Layer Learnable Activation for Implicit Neural Representation

Reza Rezaeian, Moein Heidari, Reza Azad et al.

ICCV 2025posterarXiv:2510.10993

#1258

Perspective-aware 3D Gaussian Inpainting with Multi-view Consistency

Yuxin CHENG, Binxiao Huang, Taiqiang Wu et al.

ICCV 2025posterarXiv:2507.16782

#1259

Task-Specific Zero-shot Quantization-Aware Training for Object Detection

Changhao Li, Xinrui Chen, Ji Wang et al.

ICCV 2025posterarXiv:2504.05623

#1260

Time-Aware Auto White Balance in Mobile Photography

Mahmoud Afifi, Luxi Zhao, Abhijith Punnappurath et al.

#1261

Leveraging Panoptic Scene Graph for Evaluating Fine-Grained Text-to-Image Generation

Xueqing Deng, Linjie Yang, Qihang Yu et al.

ICCV 2025posterarXiv:2507.11261

#1262

ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition

Ronggang Huang, Haoxin Yang, Yan Cai et al.

#1263

Physical Degradation Model-Guided Interferometric Hyperspectral Reconstruction with Unfolding Transformer

Yuansheng Li, Yunhao Zou, Linwei Chen et al.

ICCV 2025posterarXiv:2506.21880

#1264

VPR-Cloak: A First Look at Privacy Cloak Against Visual Place Recognition

Shuting Dong, Mingzhi Chen, Feng Lu et al.

ICCV 2025posterarXiv:2507.18366

#1265

Evidential Knowledge Distillation

Liangyu Xiang, Junyu Gao, Changsheng Xu

#1266

Hierarchical Variational Test-Time Prompt Generation for Zero-Shot Generalization

Zhaoyang Wu, Fang Liu, Licheng Jiao et al.

ICCV 2025posterarXiv:2505.03351

#1267

GUAVA: Generalizable Upper Body 3D Gaussian Avatar

Dongbin Zhang, Yunfei Liu, Lijian Lin et al.

#1268

CO2-Net: A Physics-Informed Spatio-Temporal Model for Global Surface CO2 Reconstruction

Hao Zheng, Yuting Zheng, Hanbo Huang et al.

#1269

HOMO-Feature: Cross-Arbitrary-Modal Image Matching with Homomorphism of Organized Major Orientation

Chenzhong Gao, Wei Li, Desheng Weng

ICCV 2025posterarXiv:2508.01239

#1270

OCSplats: Observation Completeness Quantification and Label Noise Separation in 3DGS

Han Ling, Yinghui Sun, Xian Xu et al.

#1271

GSOT3D: Towards Generic 3D Single Object Tracking in the Wild

Yifan Jiao, Yunhao Li, Junhua Ding et al.

ICCV 2025posterarXiv:2412.02129

#1272

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

Guanxing Lu, Baoxiong Jia, Puhao Li et al.

ICCV 2025posterarXiv:2508.17600

#1273

Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers

Yunshan Zhong, Yuyao Zhou, Yuxin Zhang et al.

ICCV 2025posterarXiv:2412.16553

#1274

Boosting Multimodal Learning via Disentangled Gradient Learning

Shicai Wei, Chunbo Luo, Yang Luo

ICCV 2025posterarXiv:2507.10213

#1275

Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection

Yehao Lu, Minghe Weng, Zekang Xiao et al.

ICCV 2025posterarXiv:2507.17436

#1276

WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image

Jiwoo Park, Tae Choi, Youngjun Jun et al.

ICCV 2025posterarXiv:2506.23518

#1277

DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions

Hengyuan Zhang, Zhe Li, Xingqun Qi et al.

ICCV 2025posterarXiv:2508.17342

#1278

TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity

Yuzhuo Chen, Zehua Ma, Han Fang et al.

ICCV 2025posterarXiv:2506.23484

#1279

HORT: Monocular Hand-held Objects Reconstruction with Transformers

Zerui Chen, Rolandos Alexandros Potamias, Shizhe Chen et al.

ICCV 2025posterarXiv:2503.21313

#1280

SurfaceSplat: Connecting Surface Reconstruction and Gaussian Splatting

Zihui Gao, Jia-Wang Bian, Guosheng Lin et al.

ICCV 2025posterarXiv:2507.15602

#1281

CaliMatch: Adaptive Calibration for Improving Safe Semi-supervised Learning

Jinsoo Bae, Seoung Bum Kim, Hyungrok Do

ICCV 2025posterarXiv:2508.00922

#1282

Lightweight and Fast Real-time Image Enhancement via Decomposition of the Spatial-aware Lookup Tables

Wontae Kim, Keuntek Lee, Nam Ik Cho

ICCV 2025posterarXiv:2508.16121

#1283

Neural Multi-View Self-Calibrated Photometric Stereo without Photometric Stereo Cues

Xu Cao, Takafumi Taketomi

ICCV 2025posterarXiv:2507.23162

#1284

Reminiscence Attack on Residuals: Exploiting Approximate Machine Unlearning for Privacy

Yaxin Xiao, Qingqing Ye, Li Hu et al.

ICCV 2025posterarXiv:2507.20573

#1285

RayPose: Ray Bundling Diffusion for Template Views in Unseen 6D Object Pose Estimation

Junwen Huang, Shishir Reddy Vutukur, Peter Yu et al.

ICCV 2025posterarXiv:2510.18521

#1286

Tensor-aggregated LoRA in Federated Fine-tuning

Zhixuan Li, Binqian Xu, Xiangbo Shu et al.

ICCV 2025posterarXiv:2407.21735

#1287

EMatch: A Unified Framework for Event-based Optical Flow and Stereo Matching

Pengjie Zhang, Lin Zhu, Xiao Wang et al.

#1288

QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation

Jiahui Yang, Yongjia Ma, Donglin Di et al.

ICCV 2025posterarXiv:2507.04599

#1289

Backdooring Self-Supervised Contrastive Learning by Noisy Alignment

Tuo Chen, Jie Gui, Minjing Dong et al.

ICCV 2025posterarXiv:2508.14015

#1290

CounterPC: Counterfactual Feature Realignment for Unsupervised Domain Adaptation on Point Clouds

Feng Yang, Yichao Cao, Xiu Su et al.

#1291

Robust Dataset Condensation using Supervised Contrastive Learning

Nicole Kim, Hwanjun Song

#1292

Liberated-GS: 3D Gaussian Splatting Independent from SfM Point Clouds

Weihong Pan, Xiaoyu Zhang, Hongjia Zhai et al.

ICCV 2025posterarXiv:2508.08556

#1293

Unlocking the Potential of Diffusion Priors in Blind Face Restoration

Yunqi Miao, Zhiyu Qu, Mingqi Gao et al.

#1294

Self-Supervised Sparse Sensor Fusion for Long Range Perception

Edoardo Palladin, Samuel Brucker, Filippo Ghilotti et al.

ICCV 2025posterarXiv:2508.13995

#1295

AccidentalGS: 3D Gaussian Splatting from Accidental Camera Motion

Mao Mao, Xujie Shen, Guyuan Chen et al.

ICCV 2025posterarXiv:2411.16180

#1296

Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction

Wenhao Xu, Wenming Weng, Yueyi Zhang et al.

#1297

Implicit Counterfactual Learning for Audio-Visual Segmentation

Mingfeng Zha, Tianyu Li, Guoqing Wang et al.

ICCV 2025posterarXiv:2507.20740

#1298

STaR: Seamless Spatial-Temporal Aware Motion Retargeting with Penetration and Consistency Constraints

Xiaohang Yang, Qing Wang, Jiahao Yang et al.

ICCV 2025posterarXiv:2504.06504

#1299

MRGen: Segmentation Data Engine For Underrepresented MRI Modalities

Haoning Wu, Ziheng Zhao, Ya Zhang et al.

ICCV 2025posterarXiv:2412.04106

#1300

Competitive Distillation: A Simple Learning Strategy for Improving Visual Classification

Daqian Shi, Xiaolei Diao, Xu Chen et al.

ICCV 2025posterarXiv:2506.23285

#1301

Rethink Sparse Signals for Pose-guided Text-to-image Generation

Wenjie Xuan, Jing Zhang, Juhua Liu et al.

ICCV 2025posterarXiv:2506.20983

#1302

MoFRR: Mixture of Diffusion Models for Face Retouching Restoration

Jiaxin Liu, Qichao Ying, Zhenxing Qian et al.

ICCV 2025posterarXiv:2507.19770

#1303

Adversarial Reconstruction Feedback for Robust Fine-grained Generalization

Shijie Wang, Jian Shi, Haojie Li

ICCV 2025posterarXiv:2507.21742

#1304

Unified Adversarial Augmentation for Improving Palmprint Recognition

Jianlong Jin, Chenglong Zhao, Ruixin Zhang et al.

ICCV 2025posterarXiv:2503.06652

#1305

Adding Additional Control to One-Step Diffusion with Joint Distribution Matching

Yihong Luo, Tianyang Hu, Yifan Song et al.

#1306

Uncover Treasures in DCT: Advancing JPEG Quality Enhancement by Exploiting Latent Correlations

jing Yang, Qunliang Xing, Mai Xu et al.

ICCV 2025posterarXiv:2506.21171

#1307

Single-Scanline Relative Pose Estimation for Rolling Shutter Cameras

Petr Hruby, Marc Pollefeys

ICCV 2025posterarXiv:2506.22069

#1308

Unified Multi-Agent Trajectory Modeling with Masked Trajectory Diffusion

songru Yang, Zhenwei Shi, Zhengxia Zou

#1309

Enhancing Transferability of Targeted Adversarial Examples via Inverse Target Gradient Competition and Spatial Distance Stretching

Zhankai Li, Weiping Wang, jie li et al.

#1310

LDPose: Towards Inclusive Human Pose Estimation for Limb-Deficient Individuals in the Wild

Jiaying Ying, Heming Du, Kaihao Zhang et al.

ICCV 2025posterarXiv:2503.11576

#1311

SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Ahmed Nassar, Matteo Omenetti, Maksym Lysak et al.

#1312

Images as Noisy Labels: Unleashing the Potential of the Diffusion Model for Open-Vocabulary Semantic Segmentation

Fan Li, Xuanbin Wang, Xuan Wang et al.

#1313

ContextFace: Generating Facial Expressions from Emotional Contexts

minjung kim, Minsang Kim, Seung Jun Baek

#1314

SMP-Attack: Boosting the Transferability of Feature Importance-based Adversarial Attack with Semantics-aware Multi-granularity Patchout

Wen Yang, Guodong Liu, Di Ming

#1315

Spatial-Temporal Forgery Trace based Forgery Image Identification

Yilin Wang, Zunlei Feng, Jiachi Wang et al.

#1316

Towards Annotation-Free Evaluation: KPAScore for Human Keypoint Detection

Xiaoxiao Wang, Chunxiao Li, Peng Sun et al.

ICCV 2025posterarXiv:2510.13419

#1317

Ultra High-Resolution Image Inpainting with Patch-Based Content Consistency Adapter

JianHui Zhang, Shen Cheng, Qirui Sun et al.

#1318

Agreement aware and dissimilarity oriented GLOM

Ru Zeng, Yan Song, Yang ZHANG et al.

ICCV 2025posterarXiv:2503.04606

#1319

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Aoxiong Yin, Kai Shen, Yichong Leng et al.

#1320

Bridging Class Imbalance and Partial Labeling via Spectral-Balanced Energy Propagation for Skeleton-based Action Recognition

Yandan Wang, Chenqi Guo, Yinglong Ma et al.

#1321

MeasureXpert: Automatic Anthropometric Measurement Extraction from Two Unregistered, Partial, Posed, and Dressed Body Scans

Ran Zhao, Xinxin Dai, Pengpeng Hu et al.

ICCV 2025posterarXiv:2508.07089

#1322

ForeSight: Multi-View Streaming Joint Object Detection and Trajectory Forecasting

Sandro Papais, Letian Wang, Brian Cheong et al.

#1323

PROL : Rehearsal Free Continual Learning in Streaming Data via Prompt Online Learning

Muhammad Anwar Ma'sum, Mahardhika Pratama, Savitha Ramasamy et al.

ICCV 2025posterarXiv:2507.12305

#1324

Dual Domain Control via Active Learning for Remote Sensing Domain Incremental Object Detection

Jiachen Sun, De Cheng, Xi Yang et al.

#1325

SUV: Suppressing Undesired Video Content via Semantic Modulation Based on Text Embeddings

Xiang Lv, Mingwen Shao, Lingzhuang Meng et al.

ICCV 2025posterarXiv:2510.22217

#1326

Enpowering Your Pansharpening Models with Generalizability: Unified Distribution is All You Need

Yongchuan Cui, Peng Liu, HUI ZHANG

#1327

DiMPLe - Disentangled Multi-Modal Prompt Learning: Enhancing Out-Of-Distribution Alignment with Invariant and Spurious Feature Separation

Umaima Rahman, Mohammad Yaqub, Dwarikanath Mahapatra

ICCV 2025posterarXiv:2506.21237

#1328

ResidualViT for Efficient Temporally Dense Video Encoding

Mattia Soldan, Fabian Caba Heilbron, Bernard Ghanem et al.

ICCV 2025highlightarXiv:2509.13255

#1329

LLM Thought Divergence and Convergence for Dialogue-Based Image Generation Control

Hui Li

ICCV 2025posterarXiv:2408.04631

#1330

Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

Ruining Li, Chuanxia Zheng, Christian Rupprecht et al.

#1331

Beyond Low-Rank Tuning: Model Prior-Guided Rank Allocation for Effective Transfer in Low-Data and Large-Gap Regimes.

Chuyan Zhang, Kefan Wang, Yun Gu

ICCV 2025posterarXiv:2507.00327

#1332

OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography

Li Caoshuo, Zengmao Ding, Xiaobin Hu et al.

ICCV 2025posterarXiv:2506.21101

#1333

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

Siqi Zhang, Yanyuan Qiao, Qunbo Wang et al.

ICCV 2025posterarXiv:2503.24065

#1334

CoStoDet-DDPM: Collaborative Training of Stochastic and Deterministic Models Improves Surgical Workflow Anticipation and Recognition

Kaixiang Yang, Xin Li, Qiang Li et al.

ICCV 2025posterarXiv:2503.10216

#1335

Exploring Weather-aware Aggregation and Adaptation for Semantic Segmentation under Adverse Conditions

Yuwen Pan, Rui Sun, Wangkai Li et al.

ICCV 2025posterarXiv:2411.00776

#1336

Randomized Autoregressive Visual Generation

Qihang Yu, Ju He, Xueqing Deng et al.

#1337

Unsupervised RGB-D Point Cloud Registration for Scenes with Low Overlap and Photometric Inconsistency

yejun Shou, Haocheng Wang, Lingfeng Shen et al.

ICCV 2025posterarXiv:2506.09445

#1338

TOGA: Temporally Grounded Open-Ended Video QA with Weak Supervision

Ayush Gupta, Anirban Roy, Rama Chellappa et al.

#1339

DynFaceRestore: Balancing Fidelity and Quality in Diffusion-Guided Blind Face Restoration with Dynamic Blur-Level Mapping and Guidance

Huu Phu Do, Yu-Wei Chen, Yi-Cheng Liao et al.

ICCV 2025highlightarXiv:2507.13797

#1340

Gradient-Reweighted Adversarial Camouflage for Physical Object Detection Evasion

Jiawei Liang, Siyuan Liang, Tianrui Lou et al.

ICCV 2025posterarXiv:2507.23300

#1341

Training-free Geometric Image Editing on Diffusion Models

Hanshen Zhu, Zhen Zhu, Kaile Zhang et al.

#1342

Monocular Facial Appearance Capture in the Wild

Yingyan Xu, Kate Gadola, Prashanth Chandran et al.

ICCV 2025posterarXiv:2412.12765

#1343

Growing a Twig to Accelerate Large Vision-Language Models

Zhenwei Shao, Mingyang Wang, Zhou Yu et al.

ICCV 2025posterarXiv:2503.14075

#1344

SignRep: Enhancing Self-Supervised Sign Representations

Ryan Wong, Necati Cihan Camgoz, Richard Bowden

ICCV 2025posterarXiv:2503.08529

#1345

MixA: A Mixed Attention approach with Stable Lightweight Linear Attention to enhance Efficiency of Vision Transformers at the Edge

Sabbir Ahmed, Jingtao Li, Weiming Zhuang et al.

#1346

Transparent Vision: A Theory of Hierarchical Invariant Representations

Shuren Qi, Yushu Zhang, CHAO WANG et al.

ICCV 2025posterarXiv:2508.17817

#1347

TemCoCo: Temporally Consistent Multi-modal Video Fusion with Visual-Semantic Collaboration

Gong Meiqi, Hao Zhang, Xunpeng Yi et al.

#1348

RetinexMCNet: A Memory Controller Dominated Network for Low-Light Video Enhancement Based on Retinex

Meiao Wang, Xuejing Kang, Yaxi Lu et al.

#1349

Sliced Wasserstein Bridge for Open-Vocabulary Video Instance Segmentation

Zheyun Qin, Deng Yu, Chuanchen Luo et al.

ICCV 2025posterarXiv:2507.20454

#1350

Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis

Zhuokun Chen, Jugang Fan, Zhuowei Yu et al.

#1351

OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

Junyuan Zhang, Qintong Zhang, Bin Wang et al.

ICCV 2025posterarXiv:2412.02592

#1352

Efficient Event Camera Data Pretraining with Adaptive Prompt Fusion

Quanmin Liang, Qiang Li, Shuai Liu et al.

ICCV 2025posterarXiv:2503.14171

#1353

Lightweight Gradient-Aware Upscaling of 3D Gaussian Splatting Images

Simon Niedermayr, Christoph Neuhauser, Rüdiger Westermann

#1354

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

Kaidong Zhang, Rongtao Xu, Ren Pengzhen et al.

ICCV 2025posterarXiv:2505.01709

#1355

3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation

Tianrui Lou, Xiaojun Jia, Siyuan Liang et al.

ICCV 2025posterarXiv:2507.01367

#1356

Head2Body: Body Pose Generation from Multi-sensory Head-mounted Inputs

Minh Tran, Hongda Mao, Qingshuang Chen et al.

ICCV 2025posterarXiv:2509.16970

#1357

LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection

Wei Liao, Chunyan Xu, Chenxu Wang et al.

#1358

Looking in the Mirror: A Faithful Counterfactual Explanation Method for Interpreting Deep Image Classification Models

Townim Chowdhury, Vu Phan, Kewen Liao et al.

ICCV 2025posterarXiv:2509.16822

#1359

FLSeg: Enhancing Privacy and Robustness in Federated Learning under Heterogeneous Data via Model Segmentation

Zichun Su, Zhi Lu, Yutong Wu et al.

#1360

Self-Calibrating Gaussian Splatting for Large Field-of-View Reconstruction

Youming Deng, Wenqi Xian, Guandao Yang et al.

ICCV 2025posterarXiv:2503.00429

#1361

DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing

Yang JingYi, Xun Lin, Zitong YU et al.

#1362

Gradient Decomposition and Alignment for Incremental Object Detection

Wenlong Luo, Shizhou Zhang, De Cheng et al.

ICCV 2025posterarXiv:2507.07374

#1363

PacGDC: Label-Efficient Generalizable Depth Completion with Projection Ambiguity and Consistency

Haotian Wang, Aoran Xiao, Xiaoqin Zhang et al.

#1364

MSQ: Memory-Efficient Bit Sparsification Quantization

Seokho Han, Seoyeon Yoon, Jinhee Kim et al.

ICCV 2025posterarXiv:2507.22349

#1365

SuMa: A Subspace Mapping Approach for Robust and Effective Concept Erasure in Text-to-Image Diffusion Models

Kien Nguyen, Anh Tran, Cuong Pham

ICCV 2025posterarXiv:2509.05625

#1366

Recovering Parametric Scenes from Very Few Time-of-Flight Pixels

Carter Sifferman, Yiquan Li, Yiming Li et al.

ICCV 2025posterarXiv:2509.16132

#1367

MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding

Tongtong Cheng, Rongzhen Li, Yixin Xiong et al.

ICCV 2025posterarXiv:2507.06072

#1368

When and Where do Data Poisons Attack Textual Inversion?

Jeremy Styborski, Mingzhi Lyu, Jiayou Lu et al.

ICCV 2025posterarXiv:2507.10578

#1369

SRefiner: Soft-Braid Attention for Multi-Agent Trajectory Refinement

Liwen Xiao, Zhiyu Pan, Zhicheng Wang et al.

ICCV 2025highlightarXiv:2507.04263

#1370

Rethinking Few Shot CLIP Benchmarks: A Critical Analysis in the Inductive Setting

Alexey Kravets, Da Chen, Vinay Namboodiri

ICCV 2025posterarXiv:2507.20834

#1371

Engage for All: Making Ordinary Image Descriptions Appealing Again!

Yuyan Chen, Yifan Jiang, Li Zhou et al.

ICCV 2025posterarXiv:2508.20080

#1372

Seam360GS: Seamless 360° Gaussian Splatting from Real-World Omnidirectional Images

Changha Shin, Woong Oh Cho, Seon Joo Kim

#1373

HiGarment: Cross-modal Harmony Based Diffusion Model for Flat Sketch to Realistic Garment Image

Junyi Guo, Jingxuan Zhang, Fangyu Wu et al.

ICCV 2025posterarXiv:2505.23186

#1374

AU-Blendshape for Fine-grained Stylized 3D Facial Expression Manipulation

Hao Li, Ju Dai, Feng Zhou et al.

ICCV 2025posterarXiv:2507.12001

#1375

BokehDiff: Neural Lens Blur with One-Step Diffusion

Chengxuan Zhu, Qingnan Fan, Qi Zhang et al.

ICCV 2025posterarXiv:2507.18060

#1376

Geometry Distributions

Biao Zhang, Jing Ren, Peter Wonka

ICCV 2025highlightarXiv:2411.16076

#1377

Trial-Oriented Visual Rearrangement

Yuyi Liu, Xinhang Song, Tianliang Qi et al.

#1378

Debiased Teacher for Day-to-Night Domain Adaptive Object Detection

Yiming Cui, Liang Li, Haibing YIN et al.

#1379

Towards Effective Foundation Model Adaptation for Extreme Cross-Domain Few-Shot Learning

Fei Zhou, Peng Wang, Lei Zhang et al.

ICCV 2025posterarXiv:2408.06569

#1380

Social Debiasing for Fair Multi-modal LLMs

Harry Cheng, Yangyang Guo, Qingpei Guo et al.

#1381

Hierarchy-Aware Pseudo Word Learning with Text Adaptation for Zero-Shot Composed Image Retrieval

Zhe Li, Lei Zhang, Zheren Fu et al.

ICCV 2025posterarXiv:2507.18997

#1382

UPP: Unified Point-Level Prompting for Robust Point Cloud Analysis

Zixiang Ai, Zhenyu Cui, Yuxin Peng et al.

#1383

AV-Flow: Transforming Text to Audio-Visual Human-like Interactions

Aggelina Chatziagapi, Louis-Philippe Morency, Hongyu Gong et al.

ICCV 2025posterarXiv:2502.13133

#1384

Efficient Adaptation of Pre-trained Vision Transformer underpinned by Approximately Orthogonal Fine-Tuning Strategy

Yiting Yang, Hao Luo, Yuan Sun et al.

ICCV 2025posterarXiv:2507.13260

#1385

Probabilistic Inertial Poser (ProbIP): Uncertainty-aware Human Motion Modeling from Sparse Inertial Sensors

Min Kim, Younho Jeon, Sungho Jo

ICCV 2025posterarXiv:2507.17373

#1386

SFUOD: Source-Free Unknown Object Detection

Keon-Hee Park, Seun-An Choe, Gyeong-Moon Park

#1387

Compression-Aware One-Step Diffusion Model for JPEG Artifact Removal

Jinpei Guo, Zheng Chen, Wenbo Li et al.

ICCV 2025posterarXiv:2502.09873

#1388

ConstStyle: Robust Domain Generalization with Unified Style Transformation

Nam Duong Tran, Nam Nguyen Phuong, Hieu Pham et al.

ICCV 2025posterarXiv:2509.05975

#1389

ConsistentCity: Semantic Flow-guided Occupancy DiT for Temporally Consistent Driving Scene Synthesis

Benjin Zhu, Xiaogang Wang, Hongsheng Li

ICCV 2025posterarXiv:2507.03539

#1390

CLOT: Closed Loop Optimal Transport for Unsupervised Action Segmentation

Elena Bueno-Benito, Mariella Dimiccoli

#1391

Dual-Temporal Exemplar Representation Network for Video Semantic Segmentation

Xiaolong Xu, Lei Zhang, Jiayi Li et al.

ICCV 2025posterarXiv:2507.23785

#1392

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

Bowen Zhang, Sicheng Xu, Chuxin Wang et al.

#1393

Golden Noise for Diffusion Models: A Learning Framework

zikai zhou, Shitong Shao, Lichen Bai et al.

ICCV 2025posterarXiv:2411.09502

#1394

Vision-Language Interactive Relation Mining for Open-Vocabulary Scene Graph Generation

Yukuan Min, Muli Yang, Jinhao Zhang et al.

ICCV 2025posterarXiv:2504.04801

#1395

OrderChain: Towards General Instruct-Tuning for Stimulating the Ordinal Understanding Ability of MLLM

Jinhong Wang, Shuo Tong, Jintai CHEN et al.

#1396

Unified Open-World Segmentation with Multi-Modal Prompts

Yang Liu, Yufei Yin, Chenchen Jing et al.

ICCV 2025posterarXiv:2510.10524

#1397

Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction

Haonan Wang, Qixiang ZHANG, Lehan Wang et al.

ICCV 2025posterarXiv:2503.11167

#1398

Outdoor Monocular SLAM with Global Scale-Consistent 3D Gaussian Pointmaps

Chong Cheng, Sicheng Yu, Zijian Wang et al.

ICCV 2025posterarXiv:2507.03737

#1399

LayerAnimate: Layer-level Control for Animation

Yuxue Yang, Lue Fan, Zuzeng Lin et al.

ICCV 2025posterarXiv:2501.08295

#1400

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

Lingteng Qiu, Xiaodong Gu, Peihao Li et al.