li

134

Papers

3,395

Total Citations

Papers (134)

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

OpenHands: An Open Platform for AI Software Developers as Generalist Agents

Evaluating Text-to-Visual Generation with Image-to-Text Generation

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style

Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models

NeurIPS 2025arXiv

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

NeurIPS 2025arXiv

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Preble: Efficient Distributed Prompt Scheduling for LLM Serving

TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes

SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

NeurIPS 2025arXiv

Hierarchical Gaussian Mixture Normalizing Flow Modeling for Unified Anomaly Detection

STAMP: Scalable Task- And Model-agnostic Collaborative Perception

When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs

NeurIPS 2025arXiv

EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks

What Makes a Good Diffusion Planner for Decision Making?

Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension

Any2Point: Empowering Any-modality Transformers for Efficient 3D Understanding

UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions

NeurIPS 2025arXiv

X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

NeurIPS 2025arXiv

GraphMaster: Automated Graph Synthesis via LLM Agents in Data-Limited Environments

NeurIPS 2025arXiv

Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation

VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model

TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling

Quantized Spike-driven Transformer

NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation

CirT: Global Subseasonal-to-Seasonal Forecasting with Geometry-inspired Transformer

On a Connection Between Imitation Learning and RLHF

C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition

Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaptation

VTDexManip: A Dataset and Benchmark for Visual-tactile Pretraining and Dexterous Manipulation with Reinforcement Learning

TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation

Motion and Structure from Event-based Normal Flow

KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

NeurIPS 2025arXiv

Learning Semantic Latent Directions for Accurate and Controllable Human Motion Prediction

Test-time Adaptation for Cross-modal Retrieval with Query Shift

GenView: Enhancing View Quality with Pretrained Generative Model for Self-Supervised Learning

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

NeurIPS 2025arXiv

You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception

SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

Causally Motivated Sycophancy Mitigation for Large Language Models

PanTS: The Pancreatic Tumor Segmentation Dataset

NeurIPS 2025arXiv

Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

NeurIPS 2025arXiv

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

Attributing Culture-Conditioned Generations to Pretraining Corpora

SemReg: Semantics Constrained Point Cloud Registration

Mesh-RFT: Enhancing Mesh Generation via Fine-grained Reinforcement Fine-Tuning

NeurIPS 2025arXiv

CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension

NeurIPS 2025arXiv

CMD: A Cross Mechanism Domain Adaptation Dataset for 3D Object Detection

LLMCO4MR: LLMs-aided Neural Combinatorial Optimization for Ancient Manuscript Restoration from Fragments with Case Studies on Dunhuang

Zebra-Llama: Towards Extremely Efficient Hybrid Models

NeurIPS 2025arXiv

Integrative Decoding: Improving Factuality via Implicit Self-consistency

LayerCraft: Enhancing Text-to-Image Generation with CoT Reasoning and Layered Object Integration

NeurIPS 2025arXiv

BOOM: Benchmarking Out-Of-distribution Molecular Property Predictions of Machine Learning Models

NeurIPS 2025arXiv

Revisiting End-to-End Learning with Slide-level Supervision in Computational Pathology

NeurIPS 2025arXiv

The Fluorescent Veil: A Stealthy and Effective Physical Adversarial Patch Against Traffic Sign Recognition

NeurIPS 2025arXiv

IGL-Bench: Establishing the Comprehensive Benchmark for Imbalanced Graph Learning

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

NeurIPS 2025arXiv

Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment

Chiron-o1: Igniting Multimodal Large Language Models towards Generalizable Medical Reasoning via Mentor-Intern Collaborative Search

NeurIPS 2025arXiv

Thinking in Character: Advancing Role-Playing Agents with Role-Aware Reasoning

NeurIPS 2025arXiv

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

NeurIPS 2025arXiv

Exploring Diffusion Transformer Designs via Grafting

NeurIPS 2025arXiv

Characterizing the Expressivity of Fixed-Precision Transformer Language Models

NeurIPS 2025arXiv

Knowledge Distillation with Multi-granularity Mixture of Priors for Image Super-Resolution

Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization

NeurIPS 2025arXiv

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

NeurIPS 2025arXiv

On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

NeurIPS 2025arXiv

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

NeurIPS 2025arXiv

GRAVER: Generative Graph Vocabularies for Robust Graph Foundation Models Fine-tuning

NeurIPS 2025arXiv

Distilling Knowledge from Large-Scale Image Models for Object Detection

Solving the inverse problem of microscopy deconvolution with a residual Beylkin-Coifman-Rokhlin neural network

DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding

NeurIPS 2025arXiv

EcoFace: Audio-Visual Emotional Co-Disentanglement Speech-Driven 3D Talking Face Generation

MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference

NeurIPS 2025arXiv

Online Video Quality Enhancement with Spatial-Temporal Look-up Tables

Rotated Orthographic Projection for Self-Supervised 3D Human Pose Estimation

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

NeurIPS 2025arXiv

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

NeurIPS 2025arXiv

Dendritic Resonate-and-Fire Neuron for Effective and Efficient Long Sequence Modeling

NeurIPS 2025arXiv

Matrix Product Sketching via Coordinated Sampling

PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs

NeurIPS 2025arXiv

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

NeurIPS 2025arXiv

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning

Outlier Synthesis via Hamiltonian Monte Carlo for Out-of-Distribution Detection

LEDiT: Your Length-Extrapolatable Diffusion Transformer without Positional Encoding

NeurIPS 2025arXiv

CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing

NeurIPS 2025arXiv

Release the Powers of Prompt Tuning: Cross-Modality Prompt Transfer

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

NeurIPS 2025arXiv

SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction

NeurIPS 2025arXiv

Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling

NeurIPS 2025arXiv

RoFt-Mol: Benchmarking Robust Fine-tuning with Molecular Graph Foundation Models

NeurIPS 2025arXiv

UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression

NeurIPS 2025arXiv

VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity-Aware Tree

NeurIPS 2025arXiv

Learning Cocoercive Conservative Denoisers via Helmholtz Decomposition for Poisson Imaging Inverse Problems

Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering

NeurIPS 2025arXiv

DSAS: A Universal Plug-and-Play Framework for Attention Optimization in Multi-Document Question Answering

NeurIPS 2025arXiv

Physically Plausible Color Correction for Neural Radiance Fields

Get Your Embedding Space in Order: Domain-Adaptive Regression for Forest Monitoring

COIN-Matting: Confounder Intervention for Image Matting

Toward a Unified Geometry Understanding : Riemannian Diffusion Framework for Graph Generation and Prediction

NeurIPS 2025arXiv

Revealing Multimodal Causality with Large Language Models

NeurIPS 2025arXiv

Functional Matching of Logic Subgraphs: Beyond Structural Isomorphism

NeurIPS 2025arXiv

Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval

NeurIPS 2025arXiv

Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

NeurIPS 2025arXiv

Adaptive Data-Borrowing for Improving Treatment Effect Estimation using External Controls

NeurIPS 2025arXiv

Order-Level Attention Similarity Across Language Models: A Latent Commonality

NeurIPS 2025arXiv

Videos are Sample-Efficient Supervisions: Behavior Cloning from Videos via Latent Representations

NeurIPS 2025arXiv

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

NeurIPS 2025arXiv

The Primacy of Magnitude in Low-Rank Adaptation

NeurIPS 2025arXiv

NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval

NeurIPS 2025arXiv

Hybrid Boundary Physics-Informed Neural Networks for Solving Navier-Stokes Equations with Complex Boundary

NeurIPS 2025arXiv

Is Noise Conditioning Necessary? A Unified Theory of Unconditional Graph Diffusion Models

NeurIPS 2025arXiv

Constrained Feedback Learning for Non-Stationary Multi-Armed Bandits

NeurIPS 2025arXiv

Real-World Reinforcement Learning of Active Perception Behaviors

NeurIPS 2025arXiv

ProDyG: Progressive Dynamic Scene Reconstruction via Gaussian Splatting from Monocular Videos

NeurIPS 2025arXiv

WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios

NeurIPS 2025arXiv

Purest Quantum State Identification

NeurIPS 2025arXiv

Don’t Forget the Enjoin: FocalLoRA for Instruction Hierarchical Alignment in Large Language Models

Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks

Sketching for Convex and Nonconvex Regularized Least Squares with Sharp Guarantees