li

74

Papers

1,457

Total Citations

Papers (74)

OpenHands: An Open Platform for AI Software Developers as Generalist Agents

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models

NeurIPS 2025arXiv

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

NeurIPS 2025arXiv

TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes

SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration

Hierarchical Gaussian Mixture Normalizing Flow Modeling for Unified Anomaly Detection

STAMP: Scalable Task- And Model-agnostic Collaborative Perception

EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks

SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension

VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model

Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

NeurIPS 2025arXiv

Quantized Spike-driven Transformer

CirT: Global Subseasonal-to-Seasonal Forecasting with Geometry-inspired Transformer

C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition

TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

NeurIPS 2025arXiv

Test-time Adaptation for Cross-modal Retrieval with Query Shift

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

NeurIPS 2025arXiv

Causally Motivated Sycophancy Mitigation for Large Language Models

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

SemReg: Semantics Constrained Point Cloud Registration

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

NeurIPS 2025arXiv

LayerCraft: Enhancing Text-to-Image Generation with CoT Reasoning and Layered Object Integration

NeurIPS 2025arXiv

LLMCO4MR: LLMs-aided Neural Combinatorial Optimization for Ancient Manuscript Restoration from Fragments with Case Studies on Dunhuang

CMD: A Cross Mechanism Domain Adaptation Dataset for 3D Object Detection

Integrative Decoding: Improving Factuality via Implicit Self-consistency

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

NeurIPS 2025arXiv

The Fluorescent Veil: A Stealthy and Effective Physical Adversarial Patch Against Traffic Sign Recognition

NeurIPS 2025arXiv

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

NeurIPS 2025arXiv

Characterizing the Expressivity of Fixed-Precision Transformer Language Models

NeurIPS 2025arXiv

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

NeurIPS 2025arXiv

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

NeurIPS 2025arXiv

Solving the inverse problem of microscopy deconvolution with a residual Beylkin-Coifman-Rokhlin neural network

DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding

NeurIPS 2025arXiv

Rotated Orthographic Projection for Self-Supervised 3D Human Pose Estimation

MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference

NeurIPS 2025arXiv

EcoFace: Audio-Visual Emotional Co-Disentanglement Speech-Driven 3D Talking Face Generation

Dendritic Resonate-and-Fire Neuron for Effective and Efficient Long Sequence Modeling

NeurIPS 2025arXiv

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

NeurIPS 2025arXiv

Outlier Synthesis via Hamiltonian Monte Carlo for Out-of-Distribution Detection

Matrix Product Sketching via Coordinated Sampling

RoFt-Mol: Benchmarking Robust Fine-tuning with Molecular Graph Foundation Models

NeurIPS 2025arXiv

LEDiT: Your Length-Extrapolatable Diffusion Transformer without Positional Encoding

NeurIPS 2025arXiv

Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering

NeurIPS 2025arXiv

Learning Cocoercive Conservative Denoisers via Helmholtz Decomposition for Poisson Imaging Inverse Problems

UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression

NeurIPS 2025arXiv

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

NeurIPS 2025arXiv

VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity-Aware Tree

NeurIPS 2025arXiv

Release the Powers of Prompt Tuning: Cross-Modality Prompt Transfer

Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling

NeurIPS 2025arXiv

ProDyG: Progressive Dynamic Scene Reconstruction via Gaussian Splatting from Monocular Videos

NeurIPS 2025arXiv

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

NeurIPS 2025arXiv

Revealing Multimodal Causality with Large Language Models

NeurIPS 2025arXiv

DSAS: A Universal Plug-and-Play Framework for Attention Optimization in Multi-Document Question Answering

NeurIPS 2025arXiv

Order-Level Attention Similarity Across Language Models: A Latent Commonality

NeurIPS 2025arXiv

Don’t Forget the Enjoin: FocalLoRA for Instruction Hierarchical Alignment in Large Language Models

Adaptive Data-Borrowing for Improving Treatment Effect Estimation using External Controls

NeurIPS 2025arXiv

WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios

NeurIPS 2025arXiv

Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval

NeurIPS 2025arXiv

Functional Matching of Logic Subgraphs: Beyond Structural Isomorphism

NeurIPS 2025arXiv

Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks

Sketching for Convex and Nonconvex Regularized Least Squares with Sharp Guarantees

NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval

NeurIPS 2025arXiv

Is Noise Conditioning Necessary? A Unified Theory of Unconditional Graph Diffusion Models

NeurIPS 2025arXiv