Most Cited 2025 Poster Papers

NEURIPS 2025arXiv:2504.06560

#6602

NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables

Lanrui Wang, Mingyu Zheng, Hongyin Tang et al.

NEURIPS 2025arXiv:2506.05314

#6603

Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models

Taha Entesari, Arman Hatami, Rinat Khaziev et al.

NEURIPS 2025arXiv:2506.10963

#6604

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning

Yuxuan Luo, Ryan Yuan, Junwen Chen et al.

NEURIPS 2025arXiv:2505.13731

#6605

GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization

Pengyue Jia, Seongheon Park, Song Gao et al.

CVPR 2025arXiv:2312.06085

#6606

SFDM: Robust Decomposition of Geometry and Reflectance for Realistic Face Rendering from Sparse-view Images

Daisheng Jin, Jiangbei Hu, Baixin Xu et al.

CVPR 2025arXiv:2503.18010

#6607

Finsler Multi-Dimensional Scaling: Manifold Learning for Asymmetric Dimensionality Reduction and Embedding

Thomas Dagès, Simon Weber, Ya-Wei Eileen Lin et al.

NEURIPS 2025spotlightarXiv:2506.10801

#6608

Dense Associative Memory with Epanechnikov Energy

Benjamin Hoover, Zhaoyang Shi, Krishnakumar Balasubramanian et al.

CVPR 2025arXiv:2506.05934

#6609

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing

Yixuan Zhu, Haolin Wang, Shilin Ma et al.

#6610

A3: Few-shot Prompt Learning of Unlearnable Examples with Cross-Modal Adversarial Feature Alignment

Xuan Wang, Xitong Gao, Dongping Liao et al.

NEURIPS 2025arXiv:2508.10298

#6611

SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning

Weijian Mai, Jiamin Wu, Yu Zhu et al.

NEURIPS 2025arXiv:2506.06964

#6612

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Subhojyoti Mukherjee, Viet Lai, Raghavendra Addanki et al.

NEURIPS 2025oralarXiv:2502.00879

#6613

Generating Computational Cognitive models using Large Language Models

Milena Rmus, Akshay Kumar Jagadish, Marvin Mathony et al.

CVPR 2025arXiv:2504.08125

#6614

Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects

Shalini Maiti, Lourdes Agapito, Filippos Kokkinos

CVPR 2025arXiv:2503.08111

#6615

MaRI: Material Retrieval Integration across Domains

Jianhui Wang, Zhifei Yang, Yangfan He et al.

CVPR 2025arXiv:2503.22725

#6616

Uncertainty Weighted Gradients for Model Calibration

Jinxu Lin, Linwei Tao, Minjing Dong et al.

ICCV 2025arXiv:2503.16867

#6617

ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

Kaisi Guan, Zhengfeng Lai, Yuchong Sun et al.

NEURIPS 2025arXiv:2405.12207

#6618

Optimistic Query Routing in Clustering-based Approximate Maximum Inner Product Search

Sebastian Bruch, Aditya Krishnan, Franco Maria Nardini

NEURIPS 2025arXiv:2411.18145

#6619

CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models

Xiao An, Jiaxing Sun, Zihan Gui et al.

CVPR 2025arXiv:2411.16468

#6620

Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency

Yutong Wang, Jiajie Teng, Jiajiong Cao et al.

NEURIPS 2025arXiv:2506.09417

#6621

ODG: Occupancy Prediction Using Dual Gaussians

Yunxiao Shi, Yinhao Zhu, Herbert Cai et al.

CVPR 2025arXiv:2407.01330

#6622

A Lightweight UDF Learning Framework for 3D Reconstruction Based on Local Shape Functions

Jiangbei Hu, Yanggeng Li, Fei Hou et al.

NEURIPS 2025arXiv:2502.01473

#6623

Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention

Arya Honarpisheh, Mustafa Bozdag, Octavia Camps et al.

CVPR 2025arXiv:2503.07446

#6624

EigenGS Representation: From Eigenspace to Gaussian Image Space

LO-WEI TAI, Ching-En Ching En, Li et al.

#6625

IM-Zero: Instance-level Motion Controllable Video Generation in a Zero-shot Manner

Yuyang Huang, Yabo Chen, Li Ding et al.

#6626

Watermarking One for All: A Robust Watermarking Scheme Against Partial Image Theft

Gaozhi Liu, Silu Cao, Zhenxing Qian et al.

NEURIPS 2025arXiv:2506.11849

#6627

Regression-adjusted Monte Carlo Estimators for Shapley Values and Probabilistic Values

R. Teal Witter, Yurong Liu, Christopher Musco

NEURIPS 2025arXiv:2505.23518

#6628

TRAP: Targeted Redirecting of Agentic Preferences

Hangoo Kang, Jehyeok Yeon, Gagandeep Singh

NEURIPS 2025arXiv:2503.01707

#6629

Metropolis Adjusted Microcanonical Hamiltonian Monte Carlo

Jakob Robnik, Reuben Cohn-Gordon, Uros Seljak

CVPR 2025arXiv:2503.00495

#6630

Towards High-fidelity 3D Talking Avatar with Personalized Dynamic Texture

Xuanchen Li, Jianyu Wang, Yuhao Cheng et al.

CVPR 2025arXiv:2502.20924

#6631

Decoder Gradient Shield: Provable and High-Fidelity Prevention of Gradient-Based Box-Free Watermark Removal

Haonan An, Guang Hua, Zhengru Fang et al.

CVPR 2025arXiv:2503.13739

#6632

Learning from Synchronization: Self-Supervised Uncalibrated Multi-View Person Association in Challenging Scenes

Keqi Chen, vinkle srivastav, Didier MUTTER et al.

CVPR 2025arXiv:2411.12773

#6633

Decoupling Training-Free Guided Diffusion by ADMM

Youyuan Zhang, Zehua Liu, Zenan Li et al.

CVPR 2025arXiv:2503.02593

#6634

CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework

Yanlong Xu, Haoxuan Qu, Jun Liu et al.

CVPR 2025arXiv:2501.09688

#6635

Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation

Jiho Choi, Seonho Lee, Minhyun Lee et al.

NEURIPS 2025spotlightarXiv:2412.09059

#6636

Go With the Flow: Fast Diffusion for Gaussian Mixture Models

George Rapakoulias, Ali Reza Pedram, Fengjiao Liu et al.

CVPR 2025arXiv:2409.18733

#6637

Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval

Mankeerat Sidhu, Hetarth Chopra, Ansel Blume et al.

CVPR 2025highlightarXiv:2504.02697

#6638

Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation

Xingguang Zhang, Nicholas M Chimitt, Xijun Wang et al.

NEURIPS 2025spotlightarXiv:2502.06244

#6639

PiKE: Adaptive Data Mixing for Large-Scale Multi-Task Learning Under Low Gradient Conflicts

Zeman Li, Yuan Deng, Peilin Zhong et al.

NEURIPS 2025oralarXiv:2503.16980

#6640

VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models

Haichao Zhang, Yun Fu

CVPR 2025arXiv:2504.20902

#6641

Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers

Quentin Guimard, Moreno D'Incà, Massimiliano Mancini et al.

CVPR 2025arXiv:2506.18335

#6642

Rethinking Decoder Design: Improving Biomarker Segmentation Using Depth-to-Space Restoration and Residual Linear Attention

Saad Wazir, Daeyoung Kim

#6643

Towards Efficient Foundation Model for Zero-shot Amodal Segmentation

Zhaochen Liu, Limeng Qiao, Xiangxiang Chu et al.

#6644

Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling

Yinuo Wang, Yanbo Fan, Xuan Wang et al.

NEURIPS 2025arXiv:2506.07078

#6645

E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models

Jiaheng Dong, Hong Jia, Soumyajit Chatterjee et al.

ICCV 2025highlightarXiv:2506.21513

#6646

GGTalker: Talking Head Systhesis with Generalizable Gaussian Priors and Identity-Specific Adaptation

Wentao Hu, Shunkai Li, Ziqiao Peng et al.

ICCV 2025arXiv:2503.23344

#6647

From Panels to Prose: Generating Literary Narratives from Comics

Ragav Sachdeva, Andrew Zisserman

CVPR 2025arXiv:2503.04446

#6648

SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity

Yijie Xu, Bolun Zheng, Wei Zhu et al.

#6649

Spherical Manifold Guided Diffusion Model for Panoramic Image Generation

Xiancheng Sun, Mai Xu, Shengxi Li et al.

#6650

Zero-Shot Blind-spot Image Denoising via Implicit Neural Sampling

Yuhui Quan, Tianxiang Zheng, Zhiyuan Ma et al.

NEURIPS 2025arXiv:2509.17786

#6651

Accurate and Efficient Low-Rank Model Merging in Core Space

Aniello Panariello, Daniel Marczak, Simone Magistri et al.

NEURIPS 2025oralarXiv:2505.13631

#6652

Learning (Approximately) Equivariant Networks via Constrained Optimization

Andrei Manolache, Luiz Chamon, Mathias Niepert

CVPR 2025arXiv:2504.15159

#6653

Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration

Junyuan Deng, Xinyi Wu, Yongxing Yang et al.

CVPR 2025arXiv:2412.16460

#6654

Positive2Negative: Breaking the Information-Lossy Barrier in Self-Supervised Single Image Denoising

Tong Li, Lizhi Wang, Zhiyuan Xu et al.

CVPR 2025arXiv:2503.14161

#6655

CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models

Yiqi Zhu, Ziyue Wang, Can Zhang et al.

#6656

RivuletMLP: An MLP-based Architecture for Efficient Compressed Video Quality Enhancement

Gang He, Weiran Wang, Guancheng Quan et al.

NEURIPS 2025arXiv:2505.20047

#6657

Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

Debargha Ganguly, Vikash Singh, Sreehari Sankar et al.

NEURIPS 2025spotlightarXiv:2511.05664

#6658

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Seo Hyun Kim, Sunwoo Hong, Hojung Jung et al.

#6659

DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Post-Capture Refocusing, Defocus Rendering and Blur Removal

Yujie Wang, Praneeth Chakravarthula, Baoquan Chen

CVPR 2025arXiv:2406.09126

#6660

3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation

Weijie Wei, Osman Ülger, Fatemeh Karimi Nejadasl et al.

NEURIPS 2025arXiv:2505.19089

#6661

Plug-and-Play Context Feature Reuse for Efficient Masked Generation

Xuejie Liu, Anji Liu, Guy Van den Broeck et al.

ICCV 2025arXiv:2503.17069

#6662

PVChat: Personalized Video Chat with One-Shot Learning

YUFEI SHI, Weilong Yan, Gang Xu et al.

CVPR 2025arXiv:2505.21591

#6663

Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning

Maosen Zhao, Pengtao Chen, Chong Yu et al.

#6664

Cheb-GR: Rethinking K-nearest Neighbor Search in Re-ranking for Person Re-identification

Jinxi Yang, He Li, Bo Du et al.

CVPR 2025arXiv:2503.23024

#6665

Empowering Large Language Models with 3D Situation Awareness

Zhihao Yuan, Yibo Peng, Jinke Ren et al.

NEURIPS 2025arXiv:2508.16817

#6666

Predictability Enables Parallelization of Nonlinear State Space Models

Xavier Gonzalez, Leo Kozachkov, David Zoltowski et al.

ICCV 2025arXiv:2507.15803

#6667

ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction

Danhui Chen, Ziquan Liu, Chuxi Yang et al.

CVPR 2025arXiv:2412.04282

#6668

Learnable Infinite Taylor Gaussian for Dynamic View Rendering

Bingbing Hu, Yanyan Li, rui xie et al.

CVPR 2025highlightarXiv:2506.06898

#6669

NSD-Imagery: A Benchmark Dataset for Extending fMRI Vision Decoding Methods to Mental Imagery

Reese Kneeland, Paul Scotti, Ghislain St-Yves et al.

NEURIPS 2025arXiv:2507.14740

#6670

Better Training Data Attribution via Better Inverse Hessian-Vector Products

Andrew Wang, Elisa Nguyen, Runshi Yang et al.

CVPR 2025arXiv:2504.04085

#6671

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Xiao-Hui Li, Fei Yin, Cheng-Lin Liu

CVPR 2025arXiv:2502.11925

#6672

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs

Yi Fang, Bowen Jin, Jiacheng Shen et al.

#6673

Making Old Film Great Again: Degradation-aware State Space Model for Old Film Restoration

Yudong Mao, Hao Luo, Zhiwei Zhong et al.

NEURIPS 2025arXiv:2506.19291

#6674

HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis

Xiaoyuan Wang, Yizhou Zhao, Botao Ye et al.

NEURIPS 2025oralarXiv:2508.13113

#6675

Contrastive Representations for Temporal Reasoning

Alicja Ziarko, Michał Bortkiewicz, Michał Zawalski et al.

CVPR 2025arXiv:2412.01160

#6676

ControlFace: Harnessing Facial Parametric Control for Face Rigging

Wooseok Jang, Youngjun Hong, Geonho Cha et al.

NEURIPS 2025arXiv:2504.01689

#6677

InvFusion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems

Noam Elata, Hyungjin Chung, Jong Chul Ye et al.

NEURIPS 2025spotlightarXiv:2502.06545

#6678

Universal Sequence Preconditioning

Annie Marsden, Elad Hazan

CVPR 2025highlightarXiv:2411.08753

#6679

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos

Sagnik Majumder, Tushar Nagarajan, Ziad Al-Halah et al.

NEURIPS 2025arXiv:2510.15804

#6680

Emergence of Linear Truth Encodings in Language Models

Shauli Ravfogel, Gilad Yehudai, Tal Linzen et al.

#6681

TopNet: Transformer-Efficient Occupancy Prediction Network for Octree-Structured Point Cloud Geometry Compression

Xinjie Wang, Yifan Zhang, Ting Liu et al.

ICCV 2025arXiv:2507.04699

#6682

A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets

Zexi Jia, Chuanwei Huang, Yeshuang Zhu et al.

NEURIPS 2025arXiv:2502.00497

#6683

Fourier Analysis Network

Yihong Dong, Ge Li, Yongding Tao et al.

NEURIPS 2025spotlightarXiv:2505.16368

#6684

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Huanyu Liu, Jia Li, Hao Zhu et al.

CVPR 2025arXiv:2503.08147

#6685

FilmComposer: LLM-Driven Music Production for Silent Film Clips

Zhifeng Xie, Qile He, Youjia Zhu et al.

CVPR 2025arXiv:2504.01428

#6686

MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image Translation

zhuangzhuang chen, hualiang wang, Chubin Ou et al.

NEURIPS 2025arXiv:2505.17955

#6687

Diffusion Classifiers Understand Compositionality, but Conditions Apply

Yujin Jeong, Arnas Uselis, Seong Joon Oh et al.

CVPR 2025arXiv:2411.18025

#6688

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

Jinneyong Kim, Seung-Hwan Baek

CVPR 2025arXiv:2506.12738

#6689

Adaptive Dropout: Unleashing Dropout across Layers for Generalizable Image Super-Resolution

Hang Xu, Jie Huang, Wei Yu et al.

NEURIPS 2025spotlightarXiv:2509.23829

#6690

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

Kefei Zhu, Fengshuo Bai, YuanHao Xiang et al.

#6691

AeSPa : Attention-guided Self-supervised Parallel Imaging for MRI Reconstruction

Jinho Joo, Hyeseong Kim, Hyeyeon Won et al.

#6692

Position: AI Should Sense Better, Not Just Scale Bigger: Adaptive Sensing as a Paradigm Shift

Eunsu Baek, Keondo Park, Jeonggil Ko et al.

NEURIPS 2025arXiv:2501.14155

#6693

Learning to price with resource constraints: from full information to machine-learned prices

Ruicheng Ao, Jiashuo Jiang, David Simchi-Levi

#6694

Avoiding exp(R) scaling in RLHF through Preference-based Exploration

Mingyu Chen, Yiding Chen, Wen Sun et al.

CVPR 2025arXiv:2503.15851

#6695

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Zhenglin Zhou, Fan Ma, Hehe Fan et al.

#6696

Enhanced Visual-Semantic Interaction with Tailored Prompts for Pedestrian Attribute Recognition

Junyi Wu, Yan Huang, Min Gao et al.

NEURIPS 2025arXiv:2507.01009

#6697

ShapeEmbed: a self-supervised learning framework for 2D contour quantification

Anna Foix-Romero, Craig Russell, Alexander Krull et al.

#6698

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models

Dongnan Gui, Xun Guo, Wengang Zhou et al.

CVPR 2025arXiv:2506.19488

#6699

SceneCrafter: Controllable Multi-View Driving Scene Editing

Zehao Zhu, Yuliang Zou, Chiyu “Max” Jiang et al.

CVPR 2025arXiv:2505.05446

#6700

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding

Han Xiao, yina xie, Guanxin tan et al.

#6701

Underwater Visual SLAM with Depth Uncertainty and Medium Modeling

Rui Liu, Sheng Fan, Wenguan Wang et al.

ICCV 2025highlight

CVPR 2025arXiv:2411.17994

#6702

Differentiable Inverse Rendering with Interpretable Basis BRDFs

Hoon-Gyu Chung, Seokjun Choi, Seung-Hwan Baek

CVPR 2025arXiv:2412.06295

#6703

See Further When Clear: Curriculum Consistency Model

Yunpeng Liu, Boxiao Liu, Yi Zhang et al.

CVPR 2025arXiv:2505.18686

#6704

WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation

Silin Cheng, Yang Liu, Xinwei He et al.

#6705

VAFlow: Video-to-Audio Generation with Cross-Modality Flow Matching

Xihua Wang, Xin Cheng, Yuyue Wang et al.

ICCV 2025

CVPR 2025arXiv:2503.00746

#6706

DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting

Liao Shen, Tianqi Liu, Huiqiang Sun et al.

NEURIPS 2025arXiv:2510.07314

#6707

GyroSwin: 5D Surrogates for Gyrokinetic Plasma Turbulence Simulations

Fabian Paischer, Gianluca Galletti, William Hornsby et al.

CVPR 2025arXiv:2411.19292

#6708

UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation

Yichong Lu, Yichi Cai, Shangzhan Zhang et al.

#6709

Supervising Sound Localization by In-the-wild Egomotion

Anna Min, Ziyang Chen, Hang Zhao et al.

NEURIPS 2025arXiv:2507.06969

#6710

Unifying Re-Identification, Attribute Inference, and Data Reconstruction Risks in Differential Privacy

Bogdan Kulynych, Juan Gomez, Georgios Kaissis et al.

#6711

One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency

Li Jin, Yujie Wang, Wenzheng Chen et al.

#6712

SLVR: Super-Light Visual Reconstruction via Blueprint Controllable Convolutions and Exploring Feature Diversity Representation

Ning Ni, Libao Zhang

CVPR 2025arXiv:2503.16535

#6713

Vision-Language Embodiment for Monocular Depth Estimation

Jinchang Zhang, Guoyu Lu

#6714

Towards Consistent Multi-Task Learning: Unlocking the Potential of Task-Specific Parameters

Xiaohan Qin, Xiaoxing Wang, Junchi Yan

CVPR 2025arXiv:2503.17024

#6715

A Tale of Two Classes: Adapting Supervised Contrastive Learning to Binary Imbalanced Datasets

David Mildenberger, Paul Hager, Daniel Rueckert et al.

#6716

A Hubness Perspective on Representation Learning for Graph-Based Multi-View Clustering

Zheming Xu, He Liu, Congyan Lang et al.

CVPR 2025arXiv:2503.08387

#6717

Recognition-Synergistic Scene Text Editing

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu et al.

ICCV 2025arXiv:2501.13667

#6718

MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation

Fu Rong, Meng Lan, Qian Zhang et al.

CVPR 2025arXiv:2501.12216

#6719

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

Uri Gadot, Shie Mannor, Assaf Shocher et al.

CVPR 2025arXiv:2411.19041

#6720

TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition

yilong wang, Zilin Gao, Qilong Wang et al.

NEURIPS 2025arXiv:2505.24161

#6721

Proxy Target: Bridging the Gap Between Discrete Spiking Neural Networks and Continuous Control

Zijie Xu, Tong Bu, Zecheng Hao et al.

NEURIPS 2025arXiv:2503.00333

#6722

More of the Same: Persistent Representational Harms Under Increased Representation

Jennifer Mickel, Maria De-Arteaga, Liu Leqi et al.

NEURIPS 2025arXiv:2506.02813

#6723

Brain-Like Processing Pathways Form in Models With Heterogeneous Experts

Jack Cook, Danyal Akarca, Rui Costa et al.

CVPR 2025arXiv:2503.19824

#6724

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

Jiazhi Guan, Kaisiyuan Wang, Zhiliang Xu et al.

#6725

Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes for Visual Question Answering

Wenlong Fang, Qiaofeng Wu, Jing Chen et al.

ICCV 2025arXiv:2506.13298

#6726

Fair Generation without Unfair Distortions: Debiasing Text-to-Image Generation with Entanglement-Free Attention

Jeonghoon Park, Juyoung Lee, Chaeyeon Chung et al.

CVPR 2025arXiv:2407.03314

#6727

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

Zhantao Yang, Ruili Feng, Keyu Yan et al.

NEURIPS 2025arXiv:2510.01619

#6728

MPMAvatar: Learning 3D Gaussian Avatars with Accurate and Robust Physics-Based Dynamics

Changmin Lee, Jihyun Lee, Tae-Kyun Kim

NEURIPS 2025arXiv:2407.07221

#6729

Tracing Back the Malicious Clients in Poisoning Attacks to Federated Learning

Yuqi Jia, Minghong Fang, Hongbin Liu et al.

#6730

Identity-Clothing Similarity Modeling for Unsupervised Clothing Change Person Re-Identification

Zhiqi Pang, Junjie Wang, Lingling Zhao et al.

NEURIPS 2025arXiv:2505.21785

#6731

Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities

Mayank Jobanputra, Yana Veitsman, Yash Sarrof et al.

NEURIPS 2025arXiv:2506.02392

#6732

Improving Generalization of Neural Combinatorial Optimization for Vehicle Routing Problems via Test-Time Projection Learning

Yuanyao Chen, Rongsheng Chen, Fu Luo et al.

NEURIPS 2025oralarXiv:2505.19547

#6733

STRAP: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization

Haoyu Zhang, WentaoZhang, Hao Miao et al.

#6734

Sensitivity-Aware Efficient Fine-Tuning via Compact Dynamic-Rank Adaptation

Tianran Chen, Jiarui Chen, Baoquan Zhang et al.

#6735

Six-CD: Benchmarking Concept Removals for Text-to-image Diffusion Models

Jie Ren, Kangrui Chen, Yingqian Cui et al.

#6736

Less Attention is More: Prompt Transformer for Generalized Category Discovery

Wei Zhang, Baopeng Zhang, Zhu Teng et al.

CVPR 2025highlightarXiv:2503.17142

#6737

Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models

Davide Berasi, Matteo Farina, Massimiliano Mancini et al.

NEURIPS 2025oralarXiv:2506.06981

#6738

Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents in Open-Ended Environments

Riley Simmons-Edler, Ryan Badman, Felix Berg et al.

NEURIPS 2025oralarXiv:2505.07705

#6739

Codifying Character Logic in Role-Playing

Letian Peng, Jingbo Shang

NEURIPS 2025oralarXiv:2510.26243

#6740

Angular Steering: Behavior Control via Rotation in Activation Space

Minh Hieu Vu, Tan Nguyen

#6741

BrepGiff: Lightweight Generation of Complex B-rep with 3D GAT Diffusion

Hao Guo, Xiaoshui Huang, Hao jiacheng et al.

CVPR 2025arXiv:2211.09810

#6742

Tightening Robustness Verification of MaxPool-based Neural Networks via Minimizing the Over-Approximation Zone

Yuan Xiao, Yuchen Chen, Shiqing Ma et al.

#6743

DriveScape: High-Resolution Driving Video Generation by Multi-View Feature Fusion

Wei Wu, Xi Guo, Weixuan TANG et al.

NEURIPS 2025arXiv:2509.17664

#6744

SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models

Pingyi Chen, Yujing Lou, Shen Cao et al.

CVPR 2025arXiv:2506.01591

#6745

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

Yuan Gan, Jiaxu Miao, Yunze Wang et al.

#6746

Leveraging SD Map to Augment HD Map-based Trajectory Prediction

Zhiwei Dong, Ran Ding, Wei Li et al.

#6747

VODiff: Controlling Object Visibility Order in Text-to-Image Generation

Dong Liang, Jinyuan Jia, Yuhao Liu et al.

NEURIPS 2025arXiv:2408.09539

#6748

Efficient Federated Learning against Byzantine Attacks and Data Heterogeneity via Aggregating Normalized Gradients

Shiyuan Zuo, Xingrun Yan, Rongfei Fan et al.

ICCV 2025arXiv:2507.22459

#6749

Exploiting Diffusion Prior for Task-driven Image Restoration

Jaeha Kim, Junghun Oh, Kyoung Mu Lee

CVPR 2025highlightarXiv:2503.03265

#6750

Optimizing for the Shortest Path in Denoising Diffusion Model

Ping Chen, Xingpeng Zhang, Zhaoxiang Liu et al.

#6751

ICP: Immediate Compensation Pruning for Mid-to-high Sparsity

Xin Luo, Fu Xueming, Zihang Jiang et al.

#6752

Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection

Feng Yan, Xiaoheng Jiang, Yang Lu et al.

NEURIPS 2025arXiv:2505.16793

#6753

REOBench: Benchmarking Robustness of Earth Observation Foundation Models

Xiang Li, Yong Tao, Siyuan Zhang et al.

ICCV 2025arXiv:2412.00142

#6754

Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features

Chancharik Mitra, Brandon Huang, Tianning Chai et al.

NEURIPS 2025arXiv:2502.17821

#6755

CAML: Collaborative Auxiliary Modality Learning for Multi-Agent Systems

Rui Liu, Yu Shen, Peng Gao et al.

NEURIPS 2025arXiv:2504.06020

#6756

Information-Theoretic Reward Decomposition for Generalizable RLHF

Liyuan Mao, Haoran Xu, Amy Zhang et al.

#6757

GPAvatar: High-fidelity Head Avatars by Learning Efficient Gaussian Projections

Weiqi Feng, Dong Han, Zekang Zhou et al.

NEURIPS 2025arXiv:2501.19107

#6758

Brain network science modelling of sparse neural networks enables Transformers and LLMs to perform as fully connected

Yingtao Zhang, Diego Cerretti, Jialin Zhao et al.

#6759

PlugMark: A Plug-in Zero-Watermarking Framework for Diffusion Models

Pengzhen Chen, Yanwei Liu, Xiaoyan Gu et al.

ICCV 2025

CVPR 2025arXiv:2503.00068

#6760

PI-HMR: Towards Robust In-bed Temporal Human Shape Reconstruction with Contact Pressure Sensing

Ziyu Wu, Yufan Xiong, Mengting Niu et al.

NEURIPS 2025arXiv:2503.22215

#6761

Learning to Instruct for Visual Instruction Tuning

Zhihan Zhou, Feng Hong, JIAAN LUO et al.

NEURIPS 2025arXiv:2411.18624

#6762

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

Wentao Wang, Hang Ye, Fangzhou Hong et al.

NEURIPS 2025spotlightarXiv:2507.14793

#6763

Flow Equivariant Recurrent Neural Networks

Andy Keller

ICCV 2025arXiv:2507.07230

#6764

Colors See Colors Ignore: Clothes Changing ReID with Color Disentanglement

Priyank Pathak, Yogesh Rawat

NEURIPS 2025spotlightarXiv:2411.04105

#6765

A Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning

Guan Zhe Hong, Nishanth Dikkala, Enming Luo et al.

NEURIPS 2025arXiv:2510.09012

#6766

Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy

Xiaoxiao Ma, Feng Zhao, Pengyang Ling et al.

NEURIPS 2025oralarXiv:2503.04981

#6767

Topology-Aware Conformal Prediction for Stream Networks

Jifan Zhang, Fangxin Wang, Zihe Song et al.

NEURIPS 2025spotlightarXiv:2503.17558

#6768

Optimal Neural Compressors for the Rate-Distortion-Perception Tradeoff

Eric Lei, Hamed Hassani, Shirin Saeedi Bidokhti

#6769

Shallow Diffuse: Robust and Invisible Watermarking through Low-Dim Subspaces in Diffusion Models

Wenda Li, Huijie Zhang, Qing Qu

NEURIPS 2025spotlight

ICCV 2025arXiv:2412.10426

#6770

CAP: Evaluation of Persuasive and Creative Image Generation

Aysan Aghazadeh, Adriana Kovashka

NEURIPS 2025spotlightarXiv:2509.16499

#6771

A Closer Look at Model Collapse: From a Generalization-to-Memorization Perspective

Lianghe Shi, Meng Wu, Huijie Zhang et al.

#6772

PolyGuard: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset

Mintong Kang, Zhaorun Chen, Chejian Xu et al.

NEURIPS 2025arXiv:2504.02433

#6773

OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking

Zhongjian Wang, Peng Zhang, Jinwei Qi et al.

NEURIPS 2025arXiv:2505.15315

#6774

Local-Global Associative Frames for Symmetry-Preserving Crystal Structure Modeling

haowei hua, Wanyu Lin

#6775

FedCALM: Conflict-aware Layer-wise Mitigation for Selective Aggregation in Deeper Personalized Federated Learning

Hao Zheng, Zhigang Hu, Boyu Wang et al.

CVPR 2025arXiv:2411.16760

#6776

LibraGrad: Balancing Gradient Flow for Universally Better Vision Transformer Attributions

Faridoun Mehri, Mahdieh Baghshah, Mohammad Taher Pilehvar

#6777

Register and [CLS] tokens induce a decoupling of local and global features in large ViTs

Alexander Lappe, Martin Giese

CVPR 2025arXiv:2411.12817

#6778

What Makes a Good Dataset for Knowledge Distillation?

Logan Frank, Jim Davis

NEURIPS 2025arXiv:2510.21542

#6779

HollowFlow: Efficient Sample Likelihood Evaluation using Hollow Message Passing

Johann Flemming Gloy, Simon Olsson

NEURIPS 2025oralarXiv:2507.13328

#6780

Vision-and-Language Training Helps Deploy Taxonomic Knowledge but Does Not Fundamentally Alter It

Yulu Qin, Dheeraj Varghese, Adam Dahlgren Lindström et al.

NEURIPS 2025arXiv:2503.07426

#6781

RePO: Understanding Preference Learning Through ReLU-Based Optimization

Junkang Wu, Kexin Huang, xue wang et al.

NEURIPS 2025arXiv:2506.00781

#6782

CoP: Agentic Red-teaming for Large Language Models using Composition of Principles

Chen Xiong, Pin-Yu Chen, Tsung-Yi Ho

ICCV 2025arXiv:2506.06026

#6783

O-MaMa: Learning Object Mask Matching between Egocentric and Exocentric Views

Lorenzo Mur-Labadia, Maria Santos-Villafranca, Jesus Bermudez-cameo et al.

NEURIPS 2025arXiv:2410.04039

#6784

BlockScan: Detecting Anomalies in Blockchain Transactions

Jiahao Yu, Xian Wu, Hao Liu et al.

#6785

Annotation Ambiguity Aware Semi-Supervised Medical Image Segmentation

Suruchi Kumari, Pravendra Singh

#6786

BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer

Yuzhou Liu, Lingjie Zhu, Hanqiao Ye et al.

CVPR 2025arXiv:2505.10679

#6787

Are Spatial-Temporal Graph Convolution Networks for Human Action Recognition Over-Parameterized?

Jianyang Xie, Yitian Zhao, Yanda Meng et al.

CVPR 2025arXiv:2306.11339

#6788

Masking meets Supervision: A Strong Learning Alliance

Byeongho Heo, Taekyung Kim, Sangdoo Yun et al.

NEURIPS 2025arXiv:2505.13499

#6789

Optimal Control for Transformer Architectures: Enhancing Generalization, Robustness and Efficiency

Kelvin Kan, Xingjian Li, Benjamin Zhang et al.

#6790

Reproducible Vision-Language Models Meet Concepts Out of Pre-Training

Ziliang Chen, Xin Huang, Xiaoxuan Fan et al.

ICCV 2025arXiv:2509.25134

#6791

LayerD: Decomposing Raster Graphic Designs into Layers

Tomoyuki Suzuki, Kang-Jun Liu, Naoto Inoue et al.

NEURIPS 2025arXiv:2509.15888

#6792

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

Senkang Hu, Xudong Han, Jinqi Jiang et al.

CVPR 2025arXiv:2409.09318

#6793

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

Yahan Tu, Rui Hu, Jitao Sang

#6794

OW-OVD: Unified Open World and Open Vocabulary Object Detection

Xing Xi, Yangyang Huang, Ronghua Luo et al.

NEURIPS 2025arXiv:2504.17660

#6795

Effortless, Simulation-Efficient Bayesian Inference using Tabular Foundation Models

Julius Vetter, Manuel Gloeckler, Daniel Gedon et al.

#6796

Shading Meets Motion: Self-supervised Indoor 3D Reconstruction Via Simultaneous Shape-from-Shading and Structure-from-Motion

Guoyu Lu

CVPR 2025arXiv:2504.02862

#6797

Towards Understanding How Knowledge Evolves in Large Vision-Language Models

Sudong Wang, Yunjian Zhang, Yao Zhu et al.

NEURIPS 2025oralarXiv:2506.09995

#6798

PlayerOne: Egocentric World Simulator

Yuanpeng Tu, Hao Luo, Xi Chen et al.

NEURIPS 2025arXiv:2506.03133

#6799

PoLAR: Polar-Decomposed Low-Rank Adapter Representation

Kai Lion, Liang Zhang, Bingcong Li et al.

#6800

Anatomical Consistency and Adaptive Prior-informed Transformation for Multi-contrast MR Image Synthesis via Diffusion Model

Yejee Shin, Yeeun Lee, Hanbyol Jang et al.