Oral Papers

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Ruihang Chu, Yefei He, Zhekai Chen et al.

NeurIPS 2025oralarXiv:2505.18110

Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

Zinuo Li, Xian Zhang, Yongxin Guo et al.

WaveAR: Wavelet-Aware Continuous Autoregressive Diffusion for Accurate Human Motion Prediction

shengchuan gao, Shuo Wang, Yabiao Wang et al.

Wavelet Canonical Coherence for Nonstationary Signals

Haibo Wu, Marina Knight, Keiland Cooper et al.

WAVE: Weighted Autoregressive Varying Gate for Time Series Forecasting

Jiecheng Lu, Xu Han, Yan Sun et al.

ICLR 2025oralarXiv:2408.16532

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Shengpeng Ji, Ziyue Jiang, Wen Wang et al.

125

ICLR 2025oralarXiv:2502.15370

Weakly Supervised Video Scene Graph Generation via Natural Language Supervision

Kibum Kim, Kanghoon Yoon, Yeonjun In et al.

WeatherGFM: Learning a Weather Generalist Foundation Model via In-context Learning

Xiangyu Zhao, Zhiwang Zhou, Wenlong Zhang et al.

ICLR 2025oral

NeurIPS 2025oralarXiv:2505.03733

WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

Zimu Lu, Yunqiao Yang, Houxing Ren et al.

What do you know? Bayesian knowledge inference for navigating agents

Matthias Schultheis, Jana-Sophie Schönfeld, Constantin Rothkopf et al.

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

Wendong Bu, Yang Wu, Qifan Yu et al.

What Moves the Eyes: Doubling Mechanistic Model Performance Using Deep Networks to Discover and Test Cognitive Hypotheses

Federico D'Agostino, Lisa Schwetlick, Matthias Bethge et al.

When Every Millisecond Counts: Real-Time Anomaly Detection via the Multimodal Asynchronous Hybrid Network

Dong Xiao, Guangyao Chen, Peixi Peng et al.

When Graph Neural Networks Meet Dynamic Mode Decomposition

Dai Shi, Lequan Lin, Andi Han et al.

ICLR 2025oral

When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration

Quan Shi, Carlos Jimenez, Shunyu Yao et al.

NeurIPS 2025oralarXiv:2510.17218

When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions

Zhuo Cao, Heming Du, Bingqing Zhang et al.

Where Does It Exist from the Low-Altitude: Spatial Aerial Video Grounding

Yang Zhan, Yuan Yuan

Who You Are Matters: Bridging Interests and Social Roles via LLM-Enhanced Logic Recommendation

Qing Yu, Xiaobei Wang, Shuchang Liu et al.

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

Tony Bonnaire, Raphaël Urfin, Giulio Biroli et al.

Words That Unite The World: A Unified Framework for Deciphering Central Bank Communications

Agam Shah, Siddhant Sukhani, Huzaifa Pardawala et al.

NeurIPS 2025oralarXiv:2504.12369

WorldMem: Long-term Consistent World Simulation with Memory

Zeqi Xiao, Yushi LAN, Yifan Zhou et al.

ICLR 2025oralarXiv:2402.08268

World Model on Million-Length Video And Language With Blockwise RingAttention

Hao Liu, Wilson Yan, Matei Zaharia et al.

144

NeurIPS 2025oralarXiv:2508.15720

WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception

Zhiheng Liu, Xueqing Deng, Shoufa Chen et al.

XAttnMark: Learning Robust Audio Watermarking with Cross-Attention

Yixin Liu, Lie Lu, Jihui Jin et al.

xLSTM-Mixer: Multivariate Time Series Forecasting by Mixing via Scalar Memories

Maurice Kraus, Felix Divo, Devendra Singh Dhami et al.

X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability

Yu Yang, Alan Liang, Jianbiao Mei et al.

NeurIPS 2025oralarXiv:2501.13457

Zero-Shot Trajectory Planning for Signal Temporal Logic Tasks

Ruijia Liu, Ancheng Hou, Xiao Yu et al.

Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models

Andrea Tirinzoni, Ahmed Touati, Jesse Farebrother et al.

ICLR 2025oral

$S^2$IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting

Zijie Pan, Yushan Jiang, Sahil Garg et al.

A Cognitive Model for Learning Abstract Relational Structures from Memory-based Decision-Making Tasks

Haruo Hosoya

Adapting Static Fairness to Sequential Decision-Making: Bias Mitigation Strategies towards Equal Long-term Benefit Rate

Yuancheng Xu, Chenghao Deng, Yanchao Sun et al.

Adaptive Accompaniment with ReaLchords

Yusong Wu, Tim Cooijmans, Kyle Kastner et al.

A decoder-only foundation model for time-series forecasting

Abhimanyu Das, Weihao Kong, Rajat Sen et al.

A Dense Reward View on Aligning Text-to-Image Diffusion with Preference

Shentao Yang, Tianqi Chen, Mingyuan Zhou

A Dual-module Framework for Counterfactual Estimation over Time

Xin Wang, Shengfei Lyu, Lishan Yang et al.

A Flexible Generative Model for Heterogeneous Tabular EHR with Missing Modality

Huan He, Yijie Hao, Yuanzhe Xi et al.

AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation

Yuanwen Yue, Sabarinath Mahadevan, Jonas Schult et al.

AirPhyNet: Harnessing Physics-Guided Neural Networks for Air Quality Prediction

Kethmi Hirushini Hettige, Jiahao Ji, Shili Xiang et al.

ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data

Carmen Martin-Turrero, Maxence Bouvier, Manuel Breitenstein et al.

AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model

Zibin Dong, Yifu Yuan, Jianye HAO et al.

Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework

Eliya Segev, Maya Alroy, Ronen Katsir et al.

An Empirical Examination of Balancing Strategy for Counterfactual Estimation on Time Series

Qiang Huang, Chuizheng Meng, Defu Cao et al.

An Emulator for Fine-tuning Large Language Models using Small Language Models

Eric Mitchell, Rafael Rafailov, Archit Sharma et al.

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Yuwei GUO, Ceyuan Yang, Anyi Rao et al.

An Improved Finite-time Analysis of Temporal Difference Learning with Deep Neural Networks

Zhifa Ke, Zaiwen Wen, Junyu Zhang

AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

Qi Zhao, Shijie Wang, Ce Zhang et al.

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Yifei Zhou, Andrea Zanette, Jiayi Pan et al.

ARM: Refining Multivariate Forecasting with Adaptive Temporal-Contextual Learning

Jiecheng Lu, Xu Han, Shihao Yang

A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive Coding Networks

Tommaso Salvatori, Yuhang Song, Yordan Yordanov et al.