Most Cited 2025 &quot;decision transformer&quot; Papers

CVPR 2025arXiv:2505.00045

#4002

Noise Modeling in One Hour: Minimizing Preparation Efforts for Self-supervised Low-Light RAW Image Denoising

Feiran Li, Haiyang Jiang, Daisuke Iso

CVPR 2025arXiv:2412.01798

#4003

SEAL: Semantic Attention Learning for Long Video Representation

Lan Wang, Yujia Chen, Wen-Sheng Chu et al.

CVPR 2025arXiv:2503.07819

#4004

POp-GS: Next Best View in 3D-Gaussian Splatting with P-Optimality

Joey Wilson, Marcelino M. de Almeida, Sachit Mahajan et al.

ICML 2025arXiv:2411.07591

#4005

Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization

Chenbei Lu, Laixi Shi, Zaiwei Chen et al.

CVPR 2025highlightarXiv:2505.04657

#4006

EvEnhancer: Empowering Effectiveness, Efficiency and Generalizability for Continuous Space-Time Video Super-Resolution with Events

Shuoyan Wei, Feng Li, Shengeng Tang et al.

AAAI 2025paperarXiv:2409.04053

#4007

COLUMBUS: Evaluating COgnitive Lateral Understanding Through Multiple-Choice reBUSes

Koen Kraaijveld, Yifan Jiang, Kaixin Ma et al.

ICLR 2025arXiv:2402.04355

#4008

PQMass: Probabilistic Assessment of the Quality of Generative Models using Probability Mass Estimation

Pablo Lemos, Sammy Sharief, Nikolay Malkin et al.

ICML 2025arXiv:2503.16322

#4009

Ultra-Resolution Adaptation with Ease

Ruonan Yu, Songhua Liu, Zhenxiong Tan et al.

ICLR 2025arXiv:2412.01036

#4010

Generating Freeform Endoskeletal Robots

Muhan Li, Lingji Kong, Sam Kriegman

NEURIPS 2025arXiv:2505.17373

#4011

Value-Guided Search for Efficient Chain-of-Thought Reasoning

Kaiwen Wang, Jin Zhou, Jonathan Chang et al.

#4012

NOVA: A Benchmark for Rare Anomaly Localization and Clinical Reasoning in Brain MRI

Cosmin Bercea, Jun Li, Philipp Raffler et al.

NEURIPS 2025oral

CVPR 2025arXiv:2505.04410

#4013

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

Junjie Wang, BIN CHEN, Yulin Li et al.

NEURIPS 2025arXiv:2510.05520

#4014

CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension

Rui Li, Zeyu Zhang, Xiaohe Bo et al.

ICLR 2025oralarXiv:2503.17452

#4015

CausalRivers - Scaling up benchmarking of causal discovery for real-world time-series

Gideon Stein, Maha Shadaydeh, Jan Blunk et al.

CVPR 2025arXiv:2505.23694

#4016

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

Li Ren, Chen Chen, Liqiang Wang et al.

#4017

Doubly Contrastive Learning for Source-Free Domain Adaptive Person Search

Yizhen Jia, Rong Quan, Yue Feng et al.

AAAI 2025paper

ICCV 2025arXiv:2404.11614

#4018

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

Zichen Liu, Yihao Meng, Hao Ouyang et al.

ICLR 2025arXiv:2410.07916

#4019

Robustness Auditing for Linear Regression: To Singularity and Beyond

Ittai Rubinstein, Samuel Hopkins

CVPR 2025arXiv:2504.14967

#4020

3D Gaussian Head Avatars with Expressive Dynamic Appearances by Compact Tensorial Representations

yating wang, Xuan Wang, Ran Yi et al.

CVPR 2025arXiv:2503.21781

#4021

VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

Chi-Pin Huang, Yen-Siang Wu, Hung-Kai Chung et al.

ICLR 2025arXiv:2407.11306

#4022

PADRe: A Unifying Polynomial Attention Drop-in Replacement for Efficient Vision Transformer

Pierre-David Letourneau, Manish Singh, Hsin-Pai Cheng et al.

NEURIPS 2025oralarXiv:2506.09518

#4023

HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene

Jianing Chen, Zehao Li, Yujun Cai et al.

NEURIPS 2025oralarXiv:2505.23150

#4024

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

Michal Nauman, Marek Cygan, Carmelo Sferrazza et al.

ICCV 2025arXiv:2412.05256

#4025

Extrapolated Urban View Synthesis Benchmark

Xiangyu Han, Zhen Jia, Boyi Li et al.

ICLR 2025arXiv:2503.00870

#4026

NeSyC: A Neuro-symbolic Continual Learner For Complex Embodied Tasks in Open Domains

Wonje Choi, Jinwoo Park, Sanghyun Ahn et al.

CVPR 2025arXiv:2501.10283

#4027

GauSTAR: Gaussian Surface Tracking and Reconstruction

Chengwei Zheng, Lixin Xue, Juan Jose Zarate et al.

ICLR 2025arXiv:2502.15895

#4028

Directional Gradient Projection for Robust Fine-Tuning of Foundation Models

Chengyue Huang, Junjiao Tian, Brisa Maneechotesuwan et al.

ICLR 2025arXiv:2502.18195

#4029

Multi-Perspective Data Augmentation for Few-shot Object Detection

Anh-Khoa Nguyen Vu, Quoc Truong Truong, Vinh-Tiep Nguyen et al.

ICML 2025arXiv:2502.07587

#4030

SEMU: Singular Value Decomposition for Efficient Machine Unlearning

Marcin Sendera, Łukasz Struski, Kamil Książek et al.

ICLR 2025arXiv:2406.04619

#4031

CTSyn: A Foundation Model for Cross Tabular Data Generation

Xiaofeng Lin, Chenheng Xu, Matthew Yang et al.

CVPR 2025highlightarXiv:2503.20519

#4032

MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation

Jinnan Chen, Lingting Zhu, Zeyu HU et al.

#4033

Triples as the Key: Structuring Makes Decomposition and Verification Easier in LLM-based TableQA

Zhen Yang, Ziwei Du, Minghan Zhang et al.

#4034

Exploring Historical Information for RGBE Visual Tracking with Mamba

Chuanyu Sun, Jiqing Zhang, Yang Wang et al.

ICCV 2025highlightarXiv:2504.01647

#4035

FlowR: Flowing from Sparse to Dense 3D Reconstructions

Tobias Fischer, Samuel Rota Bulò, Yung-Hsu Yang et al.

CVPR 2025arXiv:2411.14743

#4036

FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classification

Zhengrui Guo, Conghao Xiong, Jiabo MA et al.

ICCV 2025arXiv:2502.05040

#4037

GaussRender: Learning 3D Occupancy with Gaussian Rendering

Loick Chambon, Eloi Zablocki, Alexandre Boulch et al.

NEURIPS 2025arXiv:2505.24878

#4038

Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

Yaxin Luo, Zhaoyi Li, Jiacheng Liu et al.

ICCV 2025arXiv:2503.15855

#4039

VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling

Hyojun Go, Byeongjun Park, Hyelin Nam et al.

ICCV 2025arXiv:2506.02095

#4040

Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences

Hyojin Bahng, Caroline Chan, Fredo Durand et al.

AAAI 2025paperarXiv:2501.01125

#4041

DuMo: Dual Encoder Modulation Network for Precise Concept Erasure

Feng Han, Kai Chen, Chao Gong et al.

ICML 2025arXiv:2410.18076

#4042

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Max Wilcoxson, Qiyang Li, Kevin Frans et al.

NEURIPS 2025spotlightarXiv:2508.05941

#4043

Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution

Zhanyi Sun, Shuran Song

NEURIPS 2025arXiv:2505.20259

#4044

Lifelong Safety Alignment for Language Models

Haoyu Wang, Yifei Zhao, Zeyu Qin et al.

ICCV 2025arXiv:2507.05260

#4045

Beyond One Shot, Beyond One Perspective: Cross-View and Long-Horizon Distillation for Better LiDAR Representations

Xiang Xu, Lingdong Kong, Song Wang et al.

AAAI 2025paperarXiv:2407.12317

#4046

Out of Length Text Recognition with Sub-String Matching

Yongkun Du, Zhineng Chen, Caiyan Jia et al.

ICML 2025arXiv:2411.17284

#4047

AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling

Alexander Capstick, Rahul G. Krishnan, Payam Barnaghi

NEURIPS 2025arXiv:2503.19618

#4048

Beyond Verifiable Rewards: Scaling Reinforcement Learning in Language Models to Unverifiable Data

Yunhao Tang, Sid Wang, Lovish Madaan et al.

ICCV 2025arXiv:2503.10860

#4049

RI3D: Few-Shot Gaussian Splatting With Repair and Inpainting Diffusion Priors

Avinash Paliwal, xilong zhou, Wei Ye et al.

NEURIPS 2025arXiv:2505.18531

#4050

Generative RLHF-V: Learning Principles from Multi-modal Human Preference

Jiayi Zhou, Jiaming Ji, Boyuan Chen et al.

NEURIPS 2025arXiv:2503.02918

#4051

Straight-Line Diffusion Model for Efficient 3D Molecular Generation

Yuyan Ni, Shikun Feng, Haohan Chi et al.

CVPR 2025arXiv:2412.18928

#4052

UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation

Lunhao Duan, Shanshan Zhao, Wenjun Yan et al.

AAAI 2025paperarXiv:2411.06920

#4053

Safe Planner: Empowering Safety Awareness in Large Pre-Trained Models for Robot Task Planning

Siyuan Li, Feifan Liu, Lingfei Cui et al.

ICCV 2025arXiv:2507.04741

#4054

Vision-Language Models Can't See the Obvious

YASSER ABDELAZIZ DAHOU DJILALI, Ngoc Huynh, Phúc Lê Khắc et al.

ICLR 2025arXiv:2406.04046

#4055

ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints

Divij Handa, Pavel Dolin, Shrinidhi Kumbhar et al.

NEURIPS 2025spotlightarXiv:2502.05625

#4056

Training-Free Constrained Generation With Stable Diffusion Models

Stefano Zampini, Jacob K Christopher, Luca Oneto et al.

#4057

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

Dongzhi Jiang, Renrui Zhang, Ziyu Guo et al.

NEURIPS 2025arXiv:2506.01317

#4058

T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning

Yanjun Fu, Faisal Hamman, Sanghamitra Dutta

#4059

MATCHA: Towards Matching Anything

Fei Xue, Sven Elflein, Laura Leal-Taixe et al.

CVPR 2025highlight

AAAI 2025paperarXiv:2501.04302

#4060

H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving

Siran Chen, Yuxiao Luo, Yue Ma et al.

NEURIPS 2025arXiv:2505.19712

#4061

On the Relation between Rectified Flows and Optimal Transport

Johannes Hertrich, Antonin Chambolle, Julie Delon

CVPR 2025highlightarXiv:2411.15459

#4062

MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking

Xinqi Liu, Li Zhou, Zikun Zhou et al.

#4063

WaterDiffusion: Learning a Prior-involved Unrolling Diffusion for Joint Underwater Saliency Detection and Visual Restoration

Laibin Chang, Yunke Wang, Longxiang Deng et al.

AAAI 2025paper

ICML 2025arXiv:2410.11165

#4064

Toward Efficient Kernel-Based Solvers for Nonlinear PDEs

Zhitong Xu, Da Long, Yiming Xu et al.

NEURIPS 2025spotlightarXiv:2502.07591

#4065

DMWM: Dual-Mind World Model with Long-Term Imagination

Lingyi Wang, Rashed Shelim, Walid Saad et al.

CVPR 2025arXiv:2506.00742

#4066

ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary

Zeqi Gu, Yin Cui, Max Li et al.

NEURIPS 2025arXiv:2412.01784

#4067

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

Cameron Tice, Philipp Kreer, Nathan Helm-Burger et al.

ICLR 2025arXiv:2406.15812

#4068

Intrinsic Dimension Correlation: uncovering nonlinear connections in multimodal representations

Lorenzo Basile, Santiago Acevedo, Luca Bortolussi et al.

#4069

BrainACTIV: Identifying visuo-semantic properties driving cortical selectivity using diffusion-based image manipulation

Diego García Cerdas, Christina Sartzetaki, Magnus Petersen et al.

ICML 2025arXiv:2405.17527

#4070

Unisolver: PDE-Conditional Transformers Towards Universal Neural PDE Solvers

Hang Zhou, Yuezhou Ma, Haixu Wu et al.

ICML 2025arXiv:2410.06020

#4071

QT-DoG: Quantization-Aware Training for Domain Generalization

Saqib Javed, Hieu Le, Mathieu Salzmann

NEURIPS 2025spotlightarXiv:2505.11032

#4072

DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy

Yuran Wang, Ruihai Wu, Yue Chen et al.

ICLR 2025oralarXiv:2503.00951

#4073

Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models

Xingzhuo Guo, Yu Zhang, Baixu Chen et al.

ICLR 2025arXiv:2410.09343

#4074

ELICIT: LLM Augmentation Via External In-context Capability

Futing Wang, Jianhao (Elliott) Yan, Yue Zhang et al.

ICML 2025arXiv:2412.11044

#4075

Understanding and Mitigating Memorization in Diffusion Models for Tabular Data

Zhengyu Fang, Zhimeng Jiang, Huiyuan Chen et al.

#4076

Exploit Your Latents: Coarse-Grained Protein Backmapping with Latent Diffusion Models

Rongchao Zhang, Yu Huang, Yiwei Lou et al.

AAAI 2025paper

CVPR 2025arXiv:2506.09952

#4077

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

Ziyi Wang, Yanran Zhang, Jie Zhou et al.

ICML 2025arXiv:2502.08991

#4078

Task Generalization with Autoregressive Compositional Structure: Can Learning from $D$ Tasks Generalize to $D^T$ Tasks?

Amirhesam Abedsoltan, Huaqing Zhang, Kaiyue Wen et al.

ICML 2025oralarXiv:2506.07534

#4079

Flowing Datasets with Wasserstein over Wasserstein Gradient Flows

Clément Bonet, Christophe Vauthier, Anna Korba

ICCV 2025arXiv:2505.01996

#4080

Always Skip Attention

Yiping Ji, Hemanth Saratchandran, Peyman Moghadam et al.

ICML 2025arXiv:2502.00258

#4081

PROXSPARSE: REGULARIZED LEARNING OF SEMI-STRUCTURED SPARSITY MASKS FOR PRETRAINED LLMS

Hongyi Liu, Rajarshi Saha, Zhen Jia et al.

NEURIPS 2025arXiv:2509.23024

#4082

Tracing the Representation Geometry of Language Models from Pretraining to Post-training

Melody Li, Kumar Krishna Agrawal, Arna Ghosh et al.

ICLR 2025arXiv:2408.09966

#4083

Mask in the Mirror: Implicit Sparsification

Tom Jacobs, Rebekka Burkholz

AAAI 2025paperarXiv:2311.15438

#4084

ProtoArgNet: Interpretable Image Classification with Super-Prototypes and Argumentation

Hamed Ayoobi, Nico Potyka, Francesca Toni

NEURIPS 2025arXiv:2410.23169

#4085

The Persistence of Neural Collapse Despite Low-Rank Bias

Connall Garrod, Jonathan Keating

ICLR 2025arXiv:2408.08558

#4086

Linear combinations of latents in generative models: subspaces and beyond

Erik Bodin, Alexandru Stere, Dragos Margineantu et al.

ICML 2025oralarXiv:2502.20260

#4087

Understanding the Limits of Deep Tabular Methods with Temporal Shift

Haorun Cai, Han-Jia Ye

ICML 2025arXiv:2502.04079

#4088

DEALing with Image Reconstruction: Deep Attentive Least Squares

Mehrsa Pourya, Erich Kobler, Michael Unser et al.

#4089

Point Clouds Meets Physics: Dynamic Acoustic Field Fitting Network for Point Cloud Understanding

Changshuo Wang, Shuting He, Xiang Fang et al.

NEURIPS 2025oralarXiv:2505.18943

#4090

MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems

Xuanming Zhang, Yuxuan Chen, Samuel (Min-Hsuan) Yeh et al.

NEURIPS 2025arXiv:2503.09657

#4091

Týr-the-Pruner: Structural Pruning LLMs via Global Sparsity Distribution Optimization

Guanchen Li, Yixing Xu, Zeping Li et al.

AAAI 2025paperarXiv:2412.11807

#4092

PhysAug: A Physical-guided and Frequency-based Data Augmentation for Single-Domain Generalized Object Detection

Xiaoran Xu, Jiangang Yang, Wenhui Shi et al.

CVPR 2025highlightarXiv:2503.06956

#4093

LaTexBlend: Scaling Multi-concept Customized Generation with Latent Textual Blending

Jian Jin, Zhenbo Yu, Yang Shen et al.

NEURIPS 2025arXiv:2507.00833

#4094

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning

Zhi Jing, Siyuan Yang, Jicong Ao et al.

CVPR 2025arXiv:2410.16290

#4095

A Unified Model for Compressed Sensing MRI Across Undersampling Patterns

Armeet Singh Jatyani, Jiayun Wang, Aditi Chandrashekar et al.

AAAI 2025paperarXiv:2306.01631

#4096

Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations

Pengcheng Jiang, Cao Xiao, Tianfan Fu et al.

AAAI 2025paperarXiv:2412.11253

#4097

Are Expressive Models Truly Necessary for Offline RL?

Guan Wang, Haoyi Niu, Jianxiong Li et al.

NEURIPS 2025oralarXiv:2509.18056

#4098

TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

Yunheng Li, Jing Cheng, Shaoyong Jia et al.

ICCV 2025arXiv:2503.19604

#4099

GIViC: Generative Implicit Video Compression

Ge Gao, Siyue Teng, Tianhao Peng et al.

AAAI 2025paperarXiv:2412.09981

#4100

SUMI-IFL: An Information-Theoretic Framework for Image Forgery Localization with Sufficiency and Minimality Constraints

Ziqi Sheng, Wei Lu, Xiangyang Luo et al.

AAAI 2025paperarXiv:2312.06220

#4101

CSformer: Combining Channel Independence and Mixing for Robust Multivariate Time Series Forecasting

Haoxin Wang, Yipeng Mo, Kunlan Xiang et al.

AAAI 2025paperarXiv:2503.18042

#4102

DualCP: Rehearsal-Free Domain-Incremental Learning via Dual-Level Concept Prototype

Qiang Wang, Yuhang He, Songlin Dong et al.

AAAI 2025paperarXiv:2412.18365

#4103

Hypergraph Attacks via Injecting Homogeneous Nodes into Elite Hyperedges

Meixia He, Peican Zhu, Keke Tang et al.

NEURIPS 2025arXiv:2506.15679

#4104

Dense SAE Latents Are Features, Not Bugs

Xiaoqing Sun, Alessandro Stolfo, Joshua Engels et al.

ICCV 2025arXiv:2504.03140

#4105

Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models

Xuran Ma, Yexin Liu, Yaofu LIU et al.

NEURIPS 2025arXiv:2508.05954

#4106

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Han Lin, Jaemin Cho, Amir Zadeh et al.

ICLR 2025arXiv:2502.09925

#4107

TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types

Jiankang Chen, Tianke Zhang, Changyi Liu et al.

AAAI 2025paperarXiv:2412.16483

#4108

MOL-Mamba: Enhancing Molecular Representation with Structural & Electronic Insights

Jingjing Hu, Dan Guo, Zhan Si et al.

CVPR 2025arXiv:2503.21751

#4109

Reconstructing Humans with a Biomechanically Accurate Skeleton

Yan Xia, Xiaowei Zhou, Etienne Vouga et al.

AAAI 2025paperarXiv:2412.11684

#4110

Runtime Analysis for Multi-Objective Evolutionary Algorithms in Unbounded Integer Spaces

Benjamin Doerr, Martin S. Krejca, Günter Rudolph

ICCV 2025arXiv:2508.00728

#4111

YOLO-Count: Differentiable Object Counting for Text-to-Image Generation

Guanning Zeng, Xiang Zhang, Zirui Wang et al.

ICLR 2025arXiv:2411.19458

#4112

Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Yang You, Yixin Li, Congyue Deng et al.

NEURIPS 2025arXiv:2501.13772

#4113

Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models

Hao Cheng, Erjia Xiao, Jing Shao et al.

AAAI 2025paperarXiv:2403.01875

#4114

Locally Convex Global Loss Network for Decision-Focused Learning

Haeun Jeon, Hyunglip Bae, Minsu Park et al.

ICCV 2025arXiv:2508.16212

#4115

OmniCache: A Trajectory-Oriented Global Perspective on Training-Free Cache Reuse for Diffusion Transformer Models

Huanpeng Chu, Wei Wu, Guanyu Feng et al.

NEURIPS 2025arXiv:2410.07170

#4116

Parameter Efficient Fine-tuning via Explained Variance Adaptation

Fabian Paischer, Lukas Hauzenberger, Thomas Schmied et al.

ICLR 2025oralarXiv:2308.01170

#4117

Revisiting a Design Choice in Gradient Temporal Difference Learning

Xiaochi Qian, Shangtong Zhang

ICCV 2025arXiv:2412.16978

#4118

PromptDresser: Improving the Quality and Controllability of Virtual Try-On via Generative Textual Prompt and Prompt-aware Mask

Jeongho Kim, Hoiyeong Jin, Sunghyun Park et al.

NEURIPS 2025arXiv:2506.05735

#4119

Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness

Rongzhe Wei, Peizhi Niu, Hans Hao-Hsun Hsu et al.

ICLR 2025arXiv:2504.10902

#4120

Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs

Rui Dai, Sile Hu, Xu Shen et al.

ICCV 2025highlightarXiv:2503.06053

#4121

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Runze Zhang, Guoguang Du, Xiaochuan Li et al.

ICLR 2025arXiv:2503.02351

#4122

MindSimulator: Exploring Brain Concept Localization via Synthetic fMRI

Qi Zhang, Qi Zhang, Zixuan Gong et al.

AAAI 2025paperarXiv:2409.13948

#4123

Aligning Language Models Using Follow-up Likelihood as Reward Signal

Chen Zhang, Dading Chong, Feng Jiang et al.

#4124

Probabilistic Learning to Defer: Handling Missing Expert Annotations and Controlling Workload Distribution

Cuong Nguyen, Thanh-Toan Do, Gustavo Carneiro

CVPR 2025arXiv:2503.01359

#4125

DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models

Yongqi Huang, Peng Ye, Chenyu Huang et al.

ICLR 2025arXiv:2503.00524

#4126

End-to-end Learning of Gaussian Mixture Priors for Diffusion Sampler

Denis Blessing, Xiaogang Jia, Gerhard Neumann

NEURIPS 2025arXiv:2503.02863

#4127

SteerConf: Steering LLMs for Confidence Elicitation

Ziang Zhou, Tianyuan Jin, Jieming Shi et al.

ICLR 2025arXiv:2502.02454

#4128

IMDPrompter: Adapting SAM to Image Manipulation Detection by Cross-View Automated Prompt Learning

Quan Zhang, Yuxin Qi, Xi Tang et al.

NEURIPS 2025arXiv:2506.09047

#4129

Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs

Yaniv Nikankin, Dana Arad, Yossi Gandelsman et al.

ICLR 2025arXiv:2404.14309

#4130

Towards Understanding the Robustness of Diffusion-Based Purification: A Stochastic Perspective

Yiming Liu, Kezhao Liu, Yao Xiao et al.

ICLR 2025oralarXiv:2411.19455

#4131

Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models

Fusheng Liu, Qianxiao Li

ICLR 2025arXiv:2502.14044

#4132

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Yucheng Shi, Quanzheng Li, Jin Sun et al.

NEURIPS 2025arXiv:2505.19678

#4133

Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs

Hao Fang, Changle Zhou, Jiawei Kong et al.

NEURIPS 2025arXiv:2506.02098

#4134

LibriBrain: Over 50 Hours of Within-Subject MEG to Improve Speech Decoding Methods at Scale

Miran Özdogan, Gilad Landau, Gereon Elvers et al.

ICCV 2025arXiv:2504.02386

#4135

VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models

Kim Sung-Bin, Jeongsoo Choi, Puyuan Peng et al.

ICLR 2025arXiv:2502.13533

#4136

Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

Jun Zhang, Jue Wang, Huan Li et al.

NEURIPS 2025spotlightarXiv:2506.19004

#4137

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations

Brian Zheng, Alisa Liu, Orevaoghene Ahia et al.

ICLR 2025arXiv:2410.03097

#4138

CLIPDrag: Combining Text-based and Drag-based Instructions for Image Editing

Ziqi Jiang, Zhen Wang, Long Chen

NEURIPS 2025arXiv:2501.01999

#4139

Probing Equivariance and Symmetry Breaking in Convolutional Networks

Sharvaree Vadgama, Mohammad Islam, Domas Buracas et al.

NEURIPS 2025arXiv:2506.16962

#4140

Chiron-o1: Igniting Multimodal Large Language Models towards Generalizable Medical Reasoning via Mentor-Intern Collaborative Search

Haoran Sun, Yankai Jiang, Wenjie Lou et al.

CVPR 2025highlightarXiv:2404.03632

#4141

Reference-Based 3D-Aware Image Editing with Triplanes

Bahri Batuhan Bilecen, Yiğit Yalın, Ning Yu et al.

ICLR 2025arXiv:2502.04485

#4142

Active Task Disambiguation with LLMs

Katarzyna Kobalczyk, Nicolás Astorga, Tennison Liu et al.

ICLR 2025arXiv:2410.06820

#4143

Learning a Neural Solver for Parametric PDEs to Enhance Physics-Informed Methods

Lise Le Boudec, Emmanuel de Bézenac, Louis Serrano et al.

ICLR 2025arXiv:2410.11826

#4144

Bayesian Experimental Design Via Contrastive Diffusions

Jacopo Iollo, Christophe Heinkelé, Pierre Alliez et al.

AAAI 2025paperarXiv:2410.06913

#4145

Utilize the Flow Before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning

Runchuan Zhu, Zhipeng Ma, Jiang Wu et al.

NEURIPS 2025arXiv:2502.04204

#4146

Short-length Adversarial Training Helps LLMs Defend Long-length Jailbreak Attacks: Theoretical and Empirical Evidence

Shaopeng Fu, Liang Ding, Jingfeng ZHANG et al.

CVPR 2025arXiv:2504.10746

#4147

Hearing Anywhere in Any Environment

Xiulong Liu, Anurag Kumar, Paul Calamia et al.

ICLR 2025arXiv:2406.09870

#4148

IGL-Bench: Establishing the Comprehensive Benchmark for Imbalanced Graph Learning

Jiawen Qin, Haonan Yuan, Qingyun Sun et al.

CVPR 2025arXiv:2410.13924

#4149

ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

Guangda Ji, Silvan Weder, Francis Engelmann et al.

AAAI 2025paperarXiv:2501.09214

#4150

Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning

Yonghao Liu, Mengyu Li, Wei Pang et al.

AAAI 2025paperarXiv:2408.10613

#4151

Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval

Guangyuan Ma, Yongliang Ma, Xing Wu et al.

ICCV 2025arXiv:2503.09186

#4152

Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework

Jian-Jian Jiang, Xiao-Ming Wu, Yi-Xiang He et al.

ICLR 2025oralarXiv:2503.10307

#4153

6D Object Pose Tracking in Internet Videos for Robotic Manipulation

Georgy Ponimatkin, Martin Cífka, Tomas Soucek et al.

CVPR 2025arXiv:2412.01987

#4154

ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions

Tomas Soucek, Prajwal Gatti, Michael Wray et al.

NEURIPS 2025spotlightarXiv:2505.17761

#4155

Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models

Benjamin Walker, Lingyi Yang, Nicola Muca Cirone et al.

NEURIPS 2025arXiv:2506.20601

#4156

Video Perception Models for 3D Scene Synthesis

Rui Huang, Guangyao Zhai, Zuria Bauer et al.

#4157

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment

Huangbiao Xu, Xiao Ke, Huanqi Wu et al.

#4158

Towards Doctor-Like Reasoning: Medical RAG Fusing Knowledge with Patient Analogy through Textual Gradients

Yuxing Lu, Gecheng Fu, Wei Wu et al.

NEURIPS 2025

ICLR 2025arXiv:2502.04891

#4159

GNNs Getting ComFy: Community and Feature Similarity Guided Rewiring

Celia Rubio-Madrigal, Adarsh Jamadandi, Rebekka Burkholz

CVPR 2025arXiv:2503.01845

#4160

Denoising Functional Maps: Diffusion Models for Shape Correspondence

Aleksei Zhuravlev, Zorah Lähner, Vladislav Golyanik

CVPR 2025arXiv:2503.16134

#4161

Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing

Shiyang Zhou, Haijin Zeng, Yunfan Lu et al.

CVPR 2025arXiv:2412.03517

#4162

NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images

Lingen Li, Zhaoyang Zhang, Yaowei Li et al.

CVPR 2025highlightarXiv:2411.16310

#4163

Functionality Understanding and Segmentation in 3D Scenes

Jaime Corsetti, Francesco Giuliari, Alice Fasoli et al.

ICCV 2025arXiv:2507.13344

#4164

Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models

Yudong Jin, Sida Peng, Xuan Wang et al.

ICCV 2025arXiv:2503.17350

#4165

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers For Motion Transfer

Qingyu Shi, Jianzong Wu, Jinbin Bai et al.

NEURIPS 2025arXiv:2505.12668

#4166

Decompile-Bench: Million-Scale Binary-Source Function Pairs for Real-World Binary Decompilation

hanzhuo tan, Xiaolong Tian, Hanrui Qi et al.

NEURIPS 2025spotlightarXiv:2506.15544

#4167

Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning

Roger Creus Castanyer, Johan Obando Ceron, Lu Li et al.

NEURIPS 2025arXiv:2505.06679

#4168

T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks

Jiayang Liu, Siyuan Liang, Shiqian Zhao et al.

NEURIPS 2025spotlightarXiv:2505.23971

#4169

Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language Model Training

Will Merrill, Shane Arora, Dirk Groeneveld et al.

CVPR 2025arXiv:2503.18211

#4170

SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction

Zhengyuan Li, Kai Cheng, Anindita Ghosh et al.

CVPR 2025arXiv:2410.14379

#4171

AnomalyNCD: Towards Novel Anomaly Class Discovery in Industrial Scenarios

Ziming Huang, Xurui Li, Haotian Liu et al.

NEURIPS 2025oralarXiv:2506.05287

#4172

EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

Yuqian Yuan, Ronghao Dang, long li et al.

NEURIPS 2025arXiv:2505.19552

#4173

On scalable and efficient training of diffusion samplers

Minkyu Kim, Kiyoung Seong, Dongyeop Woo et al.

ICLR 2025arXiv:2407.00957

#4174

Expressivity of Neural Networks with Random Weights and Learned Biases

Ezekiel Williams, Alexandre Payeur, Avery Ryoo et al.

AAAI 2025paperarXiv:2501.02020

#4175

Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection

Kedi Chen, Qin Chen, Jie Zhou et al.

CVPR 2025arXiv:2411.18000

#4176

Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models

Shuyang Hao, Bryan Hooi, Jun Liu et al.

ICLR 2025arXiv:2410.23841

#4177

Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models

Jianqun Zhou, Yuanlei Zheng, Wei Chen et al.

AAAI 2025paperarXiv:2409.11283

#4178

Zero-resource Hallucination Detection for Text Generation via Graph-based Contextual Knowledge Triples Modeling

Xinyue Fang, Zhen Huang, Zhiliang Tian et al.

ICLR 2025arXiv:2410.05016

#4179

T-JEPA: Augmentation-Free Self-Supervised Learning for Tabular Data

Hugo Thimonier, José Lucas De Melo Costa, Fabrice Popineau et al.

ICCV 2025highlightarXiv:2504.07093

#4180

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution

Gene Chou, Wenqi Xian, Guandao Yang et al.

CVPR 2025arXiv:2411.16932

#4181

Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding

Andong Deng, Zhongpai Gao, Anwesa Choudhuri et al.

AAAI 2025paperarXiv:2408.07397

#4182

Bridging Training and Execution via Dynamic Directed Graph-Based Communication in Cooperative Multi-Agent Systems

Zhuohui Zhang, Bin He, Bin Cheng et al.

CVPR 2025arXiv:2401.12217

#4183

Exploring Simple Open-Vocabulary Semantic Segmentation

Zihang Lai

AAAI 2025paperarXiv:2405.16751

#4184

REVECA: Adaptive Planning and Trajectory-Based Validation in Cooperative Language Agents Using Information Relevance and Relative Proximity

SeungWon Seo, SeongRae Noh, Junhyeok Lee et al.

NEURIPS 2025spotlightarXiv:2505.23758

#4185

LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag

AAAI 2025paperarXiv:2412.13359

#4186

Multi-Agent Motion Planning for Differential Drive Robots Through Stationary State Search

Jingtian Yan, Jiaoyang Li

ICLR 2025arXiv:2502.04923

#4187

Cached Multi-Lora Composition for Multi-Concept Image Generation

Xiandong Zou, Mingzhu Shen, Christos-Savvas Bouganis et al.

ICLR 2025arXiv:2501.05783

#4188

UV-Attack: Physical-World Adversarial Attacks on Person Detection via Dynamic-NeRF-based UV Mapping

Yanjie Li, Kaisheng Liang, Bin Xiao

ICLR 2025arXiv:2502.01688

#4189

BrainOOD: Out-of-distribution Generalizable Brain Network Analysis

Jiaxing Xu, Yongqiang Chen, Xia Dong et al.

NEURIPS 2025arXiv:2503.01161

#4190

Split Gibbs Discrete Diffusion Posterior Sampling

Wenda Chu, Zihui Wu, Yifan Chen et al.

#4191

BadRobot: Jailbreaking Embodied LLM Agents in the Physical World

Hangtao Zhang, Chenyu Zhu, Xianlong Wang et al.

AAAI 2025paperarXiv:2412.09812

#4192

ScaleOT: Privacy-utility-scalable Offsite-tuning with Dynamic LayerReplace and Selective Rank Compression

Kai Yao, Zhaorui Tan, Tiandi Ye et al.

ICLR 2025arXiv:2405.16397

#4193

AdaFisher: Adaptive Second Order Optimization via Fisher Information

Damien GOMES, Yanlei Zhang, Eugene Belilovsky et al.

NEURIPS 2025arXiv:2501.18009

#4194

Large Language Models Think Too Fast To Explore Effectively

Lan Pan, Hanbo Xie, Robert Wilson

ICLR 2025arXiv:2410.10132

#4195

Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning

Hung Le, Dung Nguyen, Kien Do et al.

#4196

Stealthy Shield Defense: A Conditional Mutual Information-Based Approach against Black-Box Model Inversion Attacks

Tianqu Zhuang, Hongyao Yu, Yixiang Qiu et al.

ICCV 2025arXiv:2504.11427

#4197

NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

Yanrui Bin, Wenbo Hu, Haoyuan Wang et al.

#4198

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation

Yueru Jia, Jiaming Liu, Sixiang Chen et al.

ICCV 2025arXiv:2503.12701

#4199

AnyCalib: On-Manifold Learning for Model-Agnostic Single-View Camera Calibration

Javier Tirado-Garín, Javier Civera

ICLR 2025arXiv:2410.08942

#4200

Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory

Aymane El Firdoussi, Mohamed El Amine Seddik, Soufiane Hayou et al.