Most Cited 2025 &quot;deep generative model&quot; Papers

#8602

Simplification Is All You Need against Out-of-Distribution Overconfidence

Keke Tang, Chao Hou, Weilong Peng et al.

CVPR 2025arXiv:2412.00965

#8603

Token Cropr: Faster ViTs for Quite a Few Tasks

Benjamin Bergner, Christoph Lippert, Aravindh Mahendran

NEURIPS 2025arXiv:2505.11926

#8604

SafeVid: Toward Safety Aligned Video Large Multimodal Models

Yixu Wang, Jiaxin Song, Yifeng Gao et al.

NEURIPS 2025spotlightarXiv:2505.14552

#8605

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

Jiajun Shi, Jian Yang, Jiaheng Liu et al.

CVPR 2025arXiv:2503.00325

#8606

CADRef: Robust Out-of-Distribution Detection via Class-Aware Decoupled Relative Feature Leveraging

Zhiwei Ling, Yachen Chang, Hailiang Zhao et al.

ICCV 2025arXiv:2508.11049

#8607

GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning

Kelin Yu, Sheng Zhang, Harshit Soora et al.

ICCV 2025arXiv:2505.00482

#8608

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

Kwon Byung-Ki, Qi Dai, Lee Hyoseok et al.

CVPR 2025arXiv:2502.01565

#8609

GauCho: Gaussian Distributions with Cholesky Decomposition for Oriented Object Detection

Jeffri Erwin Murrugarra Llerena, José Henrique Marques, Claudio Jung

#8610

DaCapo: Score Distillation as Stacked Bridge for Fast and High-quality 3D Editing

Yufei Huang, Bangyan Liao, Yuqi Hu et al.

#8611

On the Out-Of-Distribution Generalization of Large Multimodal Models

Xingxuan Zhang, Jiansheng Li, Wenjing Chu et al.

ICCV 2025arXiv:2507.20200

#8612

Neural Shell Texture Splatting: More Details and Fewer Primitives

Xin Zhang, Anpei Chen, Jincheng Xiong et al.

ICCV 2025arXiv:2507.11261

#8613

ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition

Ronggang Huang, Haoxin Yang, Yan Cai et al.

#8614

Spectral Convolutional Conditional Neural Process

Peiman Mohseni, Nick Duffield

NEURIPS 2025arXiv:2505.16836

#8615

Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning

Fanrui Zhang, Dian Li, Qiang Zhang et al.

NEURIPS 2025arXiv:2509.20383

#8616

MARS: A Malignity-Aware Backdoor Defense in Federated Learning

Wei Wan, Ning Yuxuan, Zhicong Huang et al.

NEURIPS 2025arXiv:2506.05745

#8617

SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

Emil Biju, Shayan Talaei, Zhemin Huang et al.

NEURIPS 2025arXiv:2505.22860

#8618

Permissioned LLMs: Enforcing Access Control in Large Language Models

Bargav Jayaraman, Virendra Marathe, Hamid Mozaffari et al.

NEURIPS 2025arXiv:2410.20445

#8619

TrajAgent: An LLM-Agent Framework for Trajectory Modeling via Large-and-Small Model Collaboration

Yuwei Du, Jie Feng, Jie Zhao et al.

NEURIPS 2025oralarXiv:2506.15980

#8620

Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization

Cong Wang, Zexuan Deng, Zhiwei Jiang et al.

ICLR 2025arXiv:2404.05579

#8621

DRoP: Distributionally Robust Data Pruning

Artem Vysogorets, Kartik Ahuja, Julia Kempe

NEURIPS 2025arXiv:2505.10838

#8622

LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs

Ran Li, Hao Wang, Chengzhi Mao

CVPR 2025highlightarXiv:2504.19478

#8623

CASAGPT: Cuboid Arrangement and Scene Assembly for Interior Design

Weitao Feng, Hang Zhou, Jing Liao et al.

NEURIPS 2025oralarXiv:2502.04077

#8624

AttentionPredictor: Temporal Patterns Matter for KV Cache Compression

Qingyue Yang, Jie Wang, Xing Li et al.

NEURIPS 2025spotlightarXiv:2506.00925

#8625

ProtInvTree: Deliberate Protein Inverse Folding with Reward-guided Tree Search

Mengdi Liu, Xiaoxue Cheng, Zhangyang Gao et al.

NEURIPS 2025arXiv:2503.24260

#8626

MaintainCoder: Maintainable Code Generation Under Dynamic Requirements

Zhengren Wang, Rui ling, Chufan Wang et al.

NEURIPS 2025arXiv:2507.00425

#8627

Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows

Ruixiang Zhang, Shuangfei Zhai, Jiatao Gu et al.

CVPR 2025arXiv:2503.18703

#8628

Channel Consistency Prior and Self-Reconstruction Strategy Based Unsupervised Image Deraining

Guanglu Dong, Tianheng Zheng, Yuanzhouhan Cao et al.

NEURIPS 2025arXiv:2505.10562

#8629

End-to-End Vision Tokenizer Tuning

Wenxuan Wang, Fan Zhang, Yufeng Cui et al.

CVPR 2025arXiv:2503.03782

#8630

ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge

Radu Berdan, Beril Besbinar, Christoph Reinders et al.

CVPR 2025arXiv:2503.15110

#8631

GIVEPose: Gradual Intra-class Variation Elimination for RGB-based Category-Level Object Pose Estimation

Ziqin Huang, Gu Wang, Chenyangguang Zhang et al.

NEURIPS 2025arXiv:2505.12684

#8632

Towards Effective Federated Graph Foundation Model via Mitigating Knowledge Entanglement

Yinlin Zhu, Xunkai Li, Jishuo Jia et al.

CVPR 2025highlightarXiv:2506.06898

#8633

NSD-Imagery: A Benchmark Dataset for Extending fMRI Vision Decoding Methods to Mental Imagery

Reese Kneeland, Paul Scotti, Ghislain St-Yves et al.

ICCV 2025arXiv:2509.25134

#8634

LayerD: Decomposing Raster Graphic Designs into Layers

Tomoyuki Suzuki, Kang-Jun Liu, Naoto Inoue et al.

NEURIPS 2025arXiv:2506.04490

#8635

Multiscale guidance of protein structure prediction with heterogeneous cryo-EM data

Rishwanth Raghu, Axel Levy, Gordon Wetzstein et al.

NEURIPS 2025arXiv:2505.19102

#8636

Statistical inference for Linear Stochastic Approximation with Markovian Noise

Sergey Samsonov, Marina Sheshukova, Eric Moulines et al.

#8637

Diffusion Model is Effectively Its Own Teacher

Xinyin Ma, Runpeng Yu, Songhua Liu et al.

ICLR 2025arXiv:2502.06892

#8638

Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks

Bowei He, Lihao Yin, Huiling Zhen et al.

ICLR 2025arXiv:2404.02573

#8639

Knowledge Distillation with Multi-granularity Mixture of Priors for Image Super-Resolution

Simiao Li, Yun Zhang, Wei Li et al.

NEURIPS 2025arXiv:2504.17660

#8640

Effortless, Simulation-Efficient Bayesian Inference using Tabular Foundation Models

Julius Vetter, Manuel Gloeckler, Daniel Gedon et al.

#8641

$\texttt{BetaConform}$: Efficient MAP Estimation of LLM Ensemble Judgment Performance with Prior Transfer

Huaizhi Qu, Inyoung Choi, Zhen Tan et al.

ICCV 2025arXiv:2507.10213

#8642

Boosting Multimodal Learning via Disentangled Gradient Learning

Shicai Wei, Chunbo Luo, Yang Luo

ICCV 2025arXiv:2508.06494

#8643

LightSwitch: Multi-view Relighting with Material-guided Diffusion

Yehonathan Litman, Fernando De la Torre, Shubham Tulsiani

ICCV 2025arXiv:2507.23567

#8644

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection

Yung-Hsu Yang, Luigi Piccinelli, Mattia Segu et al.

ICCV 2025highlightarXiv:2412.07371

#8645

PRM: Photometric Stereo based Large Reconstruction Model

Wenhang Ge, Jiantao Lin, Guibao SHEN et al.

NEURIPS 2025arXiv:2501.10124

#8646

Gene Regulatory Network Inference in the Presence of Selection Bias and Latent Confounders

Gongxu Luo, Haoyue Dai, Longkang Li et al.

NEURIPS 2025arXiv:2511.05592

#8647

GRAVER: Generative Graph Vocabularies for Robust Graph Foundation Models Fine-tuning

Haonan Yuan, Qingyun Sun, Junhua Shi et al.

CVPR 2025arXiv:2503.04006

#8648

DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation

Amin Karimi, Charalambos Poullis

NEURIPS 2025oralarXiv:2505.23623

#8649

Characterizing the Expressivity of Fixed-Precision Transformer Language Models

Jiaoda Li, Ryan Cotterell

CVPR 2025arXiv:2504.06553

#8650

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

Yun Chang, Leonor Fermoselle, Duy Ta et al.

ICLR 2025arXiv:2504.12712

#8651

Convergence and Implicit Bias of Gradient Descent on Continual Linear Classification

Hyunji Jung, Hanseul Cho, Chulhee Yun

ICCV 2025arXiv:2503.21313

#8652

HORT: Monocular Hand-held Objects Reconstruction with Transformers

Zerui Chen, Rolandos Alexandros Potamias, Shizhe Chen et al.

NEURIPS 2025arXiv:2505.12455

#8653

AltLoRA: Towards Better Gradient Approximation in Low-Rank Adaptation with Alternating Projections

Xin Yu, Yujia Wang, Jinghui Chen et al.

ICLR 2025arXiv:2502.13991

#8654

Learning to Discover Regulatory Elements for Gene Expression Prediction

Xingyu Su, Haiyang Yu, Degui Zhi et al.

ICCV 2025arXiv:2507.05899

#8655

What You Have is What You Track: Adaptive and Robust Multimodal Tracking

Yuedong Tan, Jiawei Shao, Eduard Zamfir et al.

NEURIPS 2025arXiv:2505.16862

#8656

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

Chaoyang Wang, Xiangtai Li, Lu Qi et al.

NEURIPS 2025oralarXiv:2506.09995

#8657

PlayerOne: Egocentric World Simulator

Yuanpeng Tu, Hao Luo, Xi Chen et al.

NEURIPS 2025arXiv:2503.16965

#8658

Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

Zhe Hu, Jing Li, Zhongzhu Pu et al.

CVPR 2025arXiv:2503.00548

#8659

Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing

Yanjun Li, Zhaoyang Li, Honghui Chen et al.

CVPR 2025highlightarXiv:2412.05826

#8660

Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features

Yuanbo Xiangli, Ruojin Cai, Hanyu Chen et al.

ICCV 2025arXiv:2510.08271

#8661

SViM3D: Stable Video Material Diffusion for Single Image 3D Generation

Andreas Engelhardt, Mark Boss, Vikram Voleti et al.

CVPR 2025highlightarXiv:2501.06481

#8662

Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation

Xiaoying Xing, Avinab Saha, Junfeng He et al.

NEURIPS 2025arXiv:2505.16687

#8663

One-Step Diffusion-Based Image Compression with Semantic Distillation

Naifu Xue, Zhaoyang Jia, Jiahao Li et al.

NEURIPS 2025oralarXiv:2510.23569

#8664

EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

Baoqi Pei, Yifei Huang, Jilan Xu et al.

ICLR 2025arXiv:2503.00828

#8665

Training-Free Dataset Pruning for Instance Segmentation

Yalun Dai, Lingao Xiao, Ivor Tsang et al.

NEURIPS 2025arXiv:2510.14605

#8666

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

yuyang Hong, Jiaqi Gu, Yang Qi et al.

NEURIPS 2025arXiv:2411.09516

#8667

Sharp Matrix Empirical Bernstein Inequalities

Hongjian Wang, Aaditya Ramdas

NEURIPS 2025spotlightarXiv:2509.16499

#8668

A Closer Look at Model Collapse: From a Generalization-to-Memorization Perspective

Lianghe Shi, Meng Wu, Huijie Zhang et al.

ICCV 2025arXiv:2507.19850

#8669

FineMotion: A Dataset and Benchmark with both Spatial and Temporal Annotation for Fine-grained Motion Generation and Editing

Bizhu Wu, Jinheng Xie, Meidan Ding et al.

NEURIPS 2025oralarXiv:2505.18139

#8670

Embracing Contradiction: Theoretical Inconsistency Will Not Impede the Road of Building Responsible AI Systems

Gordon Dai, Yunze Xiao

ICLR 2025arXiv:2412.07544

#8671

Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery

Amin Soleimani Abyaneh, Mahrokh Boroujeni, Hsiu-Chin Lin et al.

#8672

VOVTrack: Exploring the Potentiality in Raw Videos for Open-Vocabulary Multi-Object Tracking

Zekun Qian, Ruize Han, Junhui Hou et al.

ICCV 2025

ICCV 2025highlightarXiv:2504.02008

#8673

Test-time Adaptation for Foundation Medical Segmentation Model Without Parametric Updates

Kecheng Chen, Xinyu Luo, Tiexin Qin et al.

ICCV 2025arXiv:2408.10789

#8674

Self-supervised Learning of Hybrid Part-aware 3D Representations of 2D Gaussians and Superquadrics

Zhirui Gao, Renjiao Yi, Yuhang Huang et al.

CVPR 2025arXiv:2412.11423

#8675

Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Namhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn et al.

NEURIPS 2025spotlightarXiv:2505.18600

#8676

Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye

ICCV 2025highlightarXiv:2503.16289

#8677

SceneMI: Motion In-betweening for Modeling Human-Scene Interaction

Inwoo Hwang, Bing Zhou, Young Min Kim et al.

NEURIPS 2025arXiv:2505.02829

#8678

LISAt: Language-Instructed Segmentation Assistant for Satellite Imagery

Jerome Quenum, Wen-Han Hsieh, Tsung-Han (Patrick) Wu et al.

NEURIPS 2025arXiv:2505.18651

#8679

On the Emergence of Linear Analogies in Word Embeddings

Daniel Korchinski, Dhruva Karkada, Yasaman Bahri et al.

NEURIPS 2025arXiv:2509.16548

#8680

SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

Yuyang Ding, Xinyu Shi, Juntao Li et al.

CVPR 2025arXiv:2503.00147

#8681

Precise Event Spotting in Sports Videos: Solving Long-Range Dependency and Class Imbalance

Sanchayan Santra, Vishal Chudasama, Pankaj Wasnik et al.

CVPR 2025arXiv:2503.21824

#8682

Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations

Haitong Liu, Kuofeng Gao, Yang Bai et al.

CVPR 2025arXiv:2409.03368

#8683

Inference-Scale Complexity in ANN-SNN Conversion for High-Performance and Low-Power Applications

Tong Bu, Maohua Li, Zhaofei Yu

ICCV 2025arXiv:2503.07601

#8684

Balanced Image Stylization with Style Matching Score

Yuxin Jiang, Liming Jiang, Shuai Yang et al.

NEURIPS 2025arXiv:2505.24061

#8685

Measure gradients, not activations! Enhancing neuronal activity in deep reinforcement learning

Jiashun Liu, Zihao Wu, Johan Obando Ceron et al.

CVPR 2025arXiv:2503.16997

#8686

Steady Progress Beats Stagnation: Mutual Aid of Foundation and Conventional Models in Mixed Domain Semi-Supervised Medical Image Segmentation

Qinghe Ma, Jian Zhang, Zekun Li et al.

CVPR 2025arXiv:2503.21815

#8687

ATP: Adaptive Threshold Pruning for Efficient Data Encoding in Quantum Neural Networks

Mohamed Afane, Gabrielle Ebbrecht, Ying Wang et al.

CVPR 2025arXiv:2503.19868

#8688

GENIUS: A Generative Framework for Universal Multimodal Search

Sungyeon Kim, Xinliang Zhu, Xiaofan Lin et al.

CVPR 2025arXiv:2503.07390

#8689

PersonaBooth: Personalized Text-to-Motion Generation

Boeun Kim, Hea In Jeong, JungHoon Sung et al.

CVPR 2025arXiv:2503.10412

#8690

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

Luyuan Xie, Tianyu Luan, Wenyuan Cai et al.

NEURIPS 2025arXiv:2506.01369

#8691

Incentivizing LLMs to Self-Verify Their Answers

Fuxiang Zhang, Jiacheng Xu, Chaojie Wang et al.

CVPR 2025arXiv:2503.08173

#8692

Towards All-in-One Medical Image Re-Identification

Yuan Tian, Kaiyuan Ji, Rongzhao Zhang et al.

NEURIPS 2025arXiv:2502.11564

#8693

Continuous Diffusion Model for Language Modeling

Jaehyeong Jo, Sung Ju Hwang

NEURIPS 2025arXiv:2509.24791

#8694

Vision Function Layer in Multimodal LLMs

Cheng Shi, Yizhou Yu, Sibei Yang

NEURIPS 2025oralarXiv:2510.22423

#8695

Stop the Nonconsensual Use of Nude Images in Research

Princessa Cintaqia, Arshia Arya, Elissa Redmiles et al.

ICCV 2025arXiv:2411.11941

#8696

TimeFormer: Capturing Temporal Relationships of Deformable 3D Gaussians for Robust Reconstruction

Dadong Jiang, Zhi Hou, Zhihui Ke et al.

NEURIPS 2025arXiv:2511.06142

#8697

MALinZero: Efficient Low-Dimensional Search for Mastering Complex Multi-Agent Planning

Sizhe Tang, Jiayu Chen, Tian Lan

ICCV 2025arXiv:2508.09137

#8698

HumanOLAT: A Large-Scale Dataset for Full-Body Human Relighting and Novel-View Synthesis

Timo Teufel, xilong zhou, Umar Iqbal et al.

NEURIPS 2025arXiv:2509.15940

#8699

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

Guoliang He, Youhe Jiang, Wencong Xiao et al.

CVPR 2025arXiv:2503.19373

#8700

DeClotH: Decomposable 3D Cloth and Human Body Reconstruction from a Single Image

Hyeongjin Nam, Donghwan Kim, Jeongtaek Oh et al.

NEURIPS 2025arXiv:2505.24161

#8701

Proxy Target: Bridging the Gap Between Discrete Spiking Neural Networks and Continuous Control

Zijie Xu, Tong Bu, Zecheng Hao et al.

NEURIPS 2025arXiv:2505.21437

#8702

CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

Huaijin Pi, Zhi Cen, Zhiyang Dou et al.

NEURIPS 2025arXiv:2504.10637

#8703

Better Estimation of the Kullback--Leibler Divergence Between Language Models

Afra Amini, Tim Vieira, Ryan Cotterell

NEURIPS 2025oralarXiv:2505.07705

#8704

Codifying Character Logic in Role-Playing

Letian Peng, Jingbo Shang

CVPR 2025arXiv:2503.03651

#8705

DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles

Rui Zhao, Weijia Mao, Mike Zheng Shou

ICCV 2025arXiv:2412.01398

#8706

Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description

Anna-Maria Halacheva, Yang Miao, Jan-Nico Zaech et al.

ICCV 2025highlightarXiv:2508.04611

#8707

BridgeDepth: Bridging Monocular and Stereo Reasoning with Latent Alignment

Tongfan Guan, Jiaxin Guo, Chen Wang et al.

#8708

Multi-Label Prototype Visual Spatial Search for Weakly Supervised Semantic Segmentation

Songsong Duan, Xi Yang, Nannan Wang

CVPR 2025highlight

NEURIPS 2025arXiv:2505.22038

#8709

Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization

kaiyuan Li, Xiaoyue Chen, Chen Gao et al.

CVPR 2025highlightarXiv:2411.10504

#8710

USP-Gaussian: Unifying Spike-based Image Reconstruction, Pose Correction and Gaussian Splatting

Kang Chen, Jiyuan Zhang, Zecheng Hao et al.

ICCV 2025arXiv:2312.04539

#8711

Auto-Vocabulary Semantic Segmentation

Osman Ülger, Maksymilian Kulicki, Yuki Asano et al.

ICCV 2025highlightarXiv:2504.01009

#8712

GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology

Saarthak Kapse, Pushpak Pati, Srikar Yellapragada et al.

ICCV 2025arXiv:2412.07494

#8713

ResGS: Residual Densification of 3D Gaussian for Efficient Detail Recovery

Yanzhe Lyu, Kai Cheng, Kang Xin et al.

NEURIPS 2025spotlightarXiv:2505.08140

#8714

Lost in Transmission: When and Why LLMs Fail to Reason Globally

Tobias Schnabel, Kiran Tomlinson, Adith Swaminathan et al.

CVPR 2025arXiv:2503.06960

#8715

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Xin Wen, Bingchen Zhao, Yilun Chen et al.

CVPR 2025arXiv:2503.22328

#8716

VoteFlow: Enforcing Local Rigidity in Self-Supervised Scene Flow

Yancong Lin, Shiming Wang, Liangliang Nan et al.

ICLR 2025arXiv:2503.01287

#8717

Robust Simulation-Based Inference under Missing Data via Neural Processes

Yogesh Verma, Ayush Bharti, Vikas Garg

NEURIPS 2025arXiv:2501.00565

#8718

Sampling from multi-modal distributions with polynomial query complexity in fixed dimension via reverse diffusion

Adrien Vacher, Omar Chehab, Anna Korba

CVPR 2025highlightarXiv:2503.15019

#8719

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Shengqiong Wu, Hao Fei, Jingkang Yang et al.

#8720

Understanding protein function with a multimodal retrieval-augmented foundation model

Timothy Truong Jr, Tristan Bepler

ICCV 2025arXiv:2508.05631

#8721

GAP: Gaussianize Any Point Clouds with Text Guidance

Weiqi Zhang, Junsheng Zhou, Haotian Geng et al.

ICLR 2025arXiv:2502.03852

#8722

Pursuing Better Decision Boundaries for Long-Tailed Object Detection via Category Information Amount

Yanbiao Ma, Wei Dai, Jiayi Chen

ICCV 2025arXiv:2409.01071

#8723

VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges

Yuxuan Wang, Yiqi Song, Cihang Xie et al.

NEURIPS 2025arXiv:2502.06684

#8724

EquiTabPFN: A Target-Permutation Equivariant Prior Fitted Network

Michael Arbel, David Salinas, Frank Hutter

NEURIPS 2025arXiv:2506.02813

#8725

Brain-Like Processing Pathways Form in Models With Heterogeneous Experts

Jack Cook, Danyal Akarca, Rui Costa et al.

CVPR 2025arXiv:2503.18055

#8726

PolarFree: Polarization-based Reflection-Free Imaging

Mingde Yao, Menglu Wang, King Man Tam et al.

ICLR 2025arXiv:2507.04976

#8727

Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models

Eunseop Yoon, Hee Suk Yoon, Mark Hasegawa-Johnson et al.

NEURIPS 2025arXiv:2505.24680

#8728

A Simple Linear Patch Revives Layer-Pruned Large Language Models

Xinrui Chen, Haoli Bai, Tao Yuan et al.

NEURIPS 2025arXiv:2503.13497

#8729

Is Limited Participant Diversity Impeding EEG-based Machine Learning?

Philipp Bomatter, Henry Gouk

NEURIPS 2025oralarXiv:2510.22257

#8730

LUNA: Efficient and Topology-Agnostic Foundation Model for EEG Signal Analysis

Berkay Döner, Thorir Mar Ingolfsson, Luca Benini et al.

NEURIPS 2025spotlightarXiv:2505.21475

#8731

Algorithms and SQ Lower Bounds for Robustly Learning Real-valued Multi-Index Models

Ilias Diakonikolas, Giannis Iakovidis, Daniel Kane et al.

NEURIPS 2025arXiv:2505.19201

#8732

DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding

Yunhai Hu, Tianhua Xia, Zining Liu et al.

NEURIPS 2025arXiv:2506.09338

#8733

Know What You Don't Know: Uncertainty Calibration of Process Reward Models

Young-Jin Park, Kristjan Greenewald, Kaveh Alimohammadi et al.

ICCV 2025arXiv:2504.16907

#8734

BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation

Ruotong Wang, Mingli Zhu, Jiarong Ou et al.

#8735

GenDataAgent: On-the-fly Dataset Augmentation with Synthetic Data

Zhiteng Li, Lele Chen, Jerone Andrews et al.

ICLR 2025

CVPR 2025arXiv:2412.09910

#8736

Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attack on Breast Ultrasound Images

Yasamin Medghalchi, Moein Heidari, Clayton Allard et al.

#8737

Introducing FOReCAst: The Future Outcome Reasoning and Confidence Assessment Benchmark

Zhangdie Yuan, Zifeng Ding, Andreas Vlachos

NEURIPS 2025arXiv:2505.18193

#8738

Riemannian Flow Matching for Brain Connectivity Matrices via Pullback Geometry

Antoine Collas, Ce Ju, Nicolas Salvy et al.

CVPR 2025arXiv:2503.18074

#8739

WISE: A Framework for Gigapixel Whole-Slide-Image Lossless Compression

Yu Mao, Jun Wang, Nan Guan et al.

CVPR 2025arXiv:2503.16406

#8740

VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness

SeungJu Cha, Kwanyoung Lee, Ye-Chan Kim et al.

NEURIPS 2025arXiv:2505.09572

#8741

SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures

Julian Kranz, Davide Gallon, Steffen Dereich et al.

NEURIPS 2025arXiv:2507.20400

#8742

Beyond Value Functions: Single-Loop Bilevel Optimization under Flatness Conditions

Liuyuan Jiang, Quan Xiao, Lisha Chen et al.

ICLR 2025arXiv:2411.01856

#8743

MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction

Cheng Tan, Zhenxiao Cao, Zhangyang Gao et al.

ICCV 2025arXiv:2503.07087

#8744

iManip: Skill-Incremental Learning for Robotic Manipulation

Zexin Zheng, Jia-Feng Cai, Xiao-Ming Wu et al.

ICCV 2025arXiv:2412.08101

#8745

Generative Zoo

Tomasz Niewiadomski, Anastasios Yiannakidis, Hanz Cuevas Velasquez et al.

#8746

Towards Robust Parameter-Efficient Fine-Tuning for Federated Learning

Xiuwen Fang, Mang Ye

CVPR 2025highlightarXiv:2504.10676

#8747

H-MoRe: Learning Human-centric Motion Representation for Action Analysis

Zhanbo Huang, Xiaoming Liu, Yu Kong

ICLR 2025oralarXiv:2410.14673

#8748

Self-supervised contrastive learning performs non-linear system identification

Rodrigo Gonzalez Laiz, Tobias Schmidt, Steffen Schneider

NEURIPS 2025arXiv:2510.12872

#8749

KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems

Hancheng Ye, Zhengqi Gao, Mingyuan Ma et al.

NEURIPS 2025oralarXiv:2406.09264

#8750

Position: Towards Bidirectional Human-AI Alignment

Hua Shen, Tiffany Knearem, Reshmi Ghosh et al.

CVPR 2025arXiv:2504.09097

#8751

BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting

Jeongwan On, Kyeonghwan Gwak, Gunyoung Kang et al.

CVPR 2025arXiv:2504.00247

#8752

MultiMorph: On-demand Atlas Construction

Mazdak Abulnaga, Andrew Hoopes, Neel Dey et al.

CVPR 2025highlightarXiv:2411.17763

#8753

Symmetry Strikes Back: From Single-Image Symmetry Detection to 3D Generation

Xiang Li, Zixuan Huang, Anh Thai et al.

NEURIPS 2025arXiv:2510.08279

#8754

Learning Neural Exposure Fields for View Synthesis

Michael Niemeyer, Fabian Manhardt, Marie-Julie Rakotosaona et al.

CVPR 2025arXiv:2412.17741

#8755

Reasoning to Attend: Try to Understand How <SEG> Token Works

Rui Qian, Xin Yin, Dejing Dou

NEURIPS 2025spotlightarXiv:2502.06545

#8756

Universal Sequence Preconditioning

Annie Marsden, Elad Hazan

CVPR 2025arXiv:2503.18123

#8757

End-to-End Implicit Neural Representations for Classification

Alexander Gielisse, Jan van Gemert

NEURIPS 2025oralarXiv:2506.11147

#8758

3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks

Xiaotang Gai, Jiaxiang Liu, Yichen Li et al.

CVPR 2025arXiv:2411.18082

#8759

Dual-view X-ray Detection: Can AI Detect Prohibited Items from Dual-view X-ray Images like Humans?

Renshuai Tao, Haoyu Wang, Yuzhe Guo et al.

NEURIPS 2025arXiv:2509.25375

#8760

Safe and Stable Control via Lyapunov-Guided Diffusion Models

Xiaoyuan Cheng, Xiaohang Tang, Yiming Yang

#8761

Understanding Multi-Task Activities from Single-Task Videos

Yuhan Shen, Ehsan Elhamifar

CVPR 2025highlight

NEURIPS 2025arXiv:2509.10813

#8762

InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

Weipeng Zhong, Peizhou Cao, Yichen Jin et al.

NEURIPS 2025arXiv:2507.14740

#8763

Better Training Data Attribution via Better Inverse Hessian-Vector Products

Andrew Wang, Elisa Nguyen, Runshi Yang et al.

NEURIPS 2025arXiv:2505.23583

#8764

Improving Time Series Forecasting via Instance-aware Post-hoc Revision

Zhiding Liu, Mingyue Cheng, Guanhao Zhao et al.

#8765

Secret Lies in Color: Enhancing AI-Generated Images Detection with Color Distribution Analysis

Zexi Jia, Chuanwei Huang, Yeshuang Zhu et al.

CVPR 2025highlightarXiv:2503.20354

#8766

SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity

Ke Ma, Jiaqi Tang, Bin Guo et al.

CVPR 2025arXiv:2503.18244

#8767

CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation

Jungsoo Lee, Debasmit Das, Munawar Hayat et al.

ICLR 2025arXiv:2310.03205

#8768

A Large-Scale 3D Face Mesh Video Dataset via Neural Re-parameterized Optimization

Kim Youwang, Lee Hyun, Kim Sung-Bin et al.

#8769

SRA-CL: Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation

Ziqiang Cui, Yunpeng Weng, Xing Tang et al.

#8770

JAMUN: Bridging Smoothed Molecular Dynamics and Score-Based Learning for Conformational Ensemble Generation

Ameya Daigavane, Bodhi Vani, Darcy Davidson et al.

NEURIPS 2025arXiv:2505.19089

#8771

Plug-and-Play Context Feature Reuse for Efficient Masked Generation

Xuejie Liu, Anji Liu, Guy Van den Broeck et al.

CVPR 2025arXiv:2504.00072

#8772

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Lucas Ventura, Antoine Yang, Cordelia Schmid et al.

ICCV 2025highlightarXiv:2507.20025

#8773

Region-based Cluster Discrimination for Visual Representation Learning

Yin Xie, Kaicheng Yang, Xiang An et al.

CVPR 2025arXiv:2506.05563

#8774

VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction

Ziyue Zhu, Shenlong Wang, Jin Xie et al.

NEURIPS 2025spotlightarXiv:2505.17052

#8775

SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs

Jinwoo Park, Seunggeun Cho, Dongsu Han

CVPR 2025arXiv:2503.20936

#8776

LATTE-MV: Learning to Anticipate Table Tennis Hits from Monocular Videos

Daniel Etaat, Dvij Rajesh Kalaria, Nima Rahmanian et al.

#8777

WALL-E: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

Siyu Zhou, Tianyi Zhou, Yijun Yang et al.

NEURIPS 2025arXiv:2505.10518

#8778

Multi-Token Prediction Needs Registers

Anastasios Gerontopoulos, Spyridon Gidaris, Nikos Komodakis

CVPR 2025arXiv:2504.01428

#8779

MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image Translation

zhuangzhuang chen, hualiang wang, Chubin Ou et al.

NEURIPS 2025oralarXiv:2510.21585

#8780

REVE: A Foundation Model for EEG - Adapting to Any Setup with Large-Scale Pretraining on 25,000 Subjects

Yassine El Ouahidi, Jonathan Lys, Philipp Thölke et al.

NEURIPS 2025spotlightarXiv:2412.09059

#8781

Go With the Flow: Fast Diffusion for Gaussian Mixture Models

George Rapakoulias, Ali Reza Pedram, Fengjiao Liu et al.

ICCV 2025arXiv:2507.03657

#8782

Dynamic Multimodal Prototype Learning in Vision-Language Models

Xingyu Zhu, Shuo Wang, Beier Zhu et al.

NEURIPS 2025oralarXiv:2507.03285

#8783

Memory Mosaics at scale

Jianyu Zhang, Leon Bottou

NEURIPS 2025arXiv:2409.12446

#8784

Neural Networks Generalize on Low Complexity Data

Sourav Chatterjee, Timothy Sudijono

NEURIPS 2025oralarXiv:2512.03318

#8785

Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia

Chandler Smith, Marwa Abdulhai, Manfred Díaz et al.

ICCV 2025arXiv:2411.16768

#8786

Sequential Gaussian Avatars with Hierarchical Motion Context

Wangze Xu, Yifan Zhan, Zhihang Zhong et al.

NEURIPS 2025spotlightarXiv:2504.18530

#8787

Scaling Laws For Scalable Oversight

Joshua Engels, David Baek, Subhash Kantamneni et al.

NEURIPS 2025arXiv:2509.15763

#8788

UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression

Chenlong Deng, Zhisong Zhang, Kelong Mao et al.

CVPR 2025arXiv:2411.12592

#8789

SPARS3R: Semantic Prior Alignment and Regularization for Sparse 3D Reconstruction

Yutao Tang, Yuxiang Guo, Deming Li et al.

NEURIPS 2025arXiv:2509.18094

#8790

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

Ye Liu, Zongyang Ma, Junfu Pu et al.

ICCV 2025arXiv:2505.00704

#8791

Controllable Weather Synthesis and Removal with Video Diffusion Models

Chih-Hao Lin, Zian Wang, Ruofan Liang et al.

ICCV 2025arXiv:2501.02201

#8792

Acknowledging Focus Ambiguity in Visual Questions

Chongyan Chen, Yu-Yun Tseng, Zhuoheng Li et al.

NEURIPS 2025arXiv:2505.20033

#8793

EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition

Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby et al.

NEURIPS 2025arXiv:2505.23061

#8794

DINGO: Constrained Inference for Diffusion LLMs

Tarun Suresh, Debangshu Banerjee, Shubham Ugare et al.

CVPR 2025highlightarXiv:2411.18180

#8795

DistinctAD: Distinctive Audio Description Generation in Contexts

Bo Fang, Wenhao Wu, Qiangqiang Wu et al.

NEURIPS 2025arXiv:2504.18743

#8796

Non-Asymptotic Guarantees for Average-Reward Q-Learning with Adaptive Stepsizes

Zaiwei Chen

NEURIPS 2025arXiv:2506.19865

#8797

Scalable and Cost-Efficient de Novo Template-Based Molecular Generation

Piotr Gaiński, Oussama Boussif, Andrei Rekesh et al.

ICCV 2025arXiv:2411.13076

#8798

Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving

Hao Zhou, Zhanning Gao, Zhili Chen et al.

ICCV 2025arXiv:2504.13206

#8799

DuoLoRA : Cycle-consistent and Rank-disentangled Content-Style Personalization

Aniket Roy, Shubhankar Borse, Shreya Kadambi et al.

NEURIPS 2025arXiv:2505.21024

#8800

Pause Tokens Strictly Increase the Expressivity of Constant-Depth Transformers

Charles London, Varun Kanade