wang

78

Papers

1,864

Total Citations

Papers (78)

Video-R1: Reinforcing Video Reasoning in MLLMs

NeurIPS 2025arXiv

Advancing LLM Reasoning Generalists with Preference Trees

SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

Tamper-Resistant Safeguards for Open-Weight LLMs

Autoregressive Video Generation without Vector Quantization

TLControl: Trajectory and Language Control for Human Motion Synthesis

BAD-Gaussians: Bundle Adjusted Deblur Gaussian Splatting

DSBench: How Far Are Data Science Agents from Becoming Data Science Experts?

MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

WritingBench: A Comprehensive Benchmark for Generative Writing

NeurIPS 2025arXiv

Dynamic Diffusion Transformer

AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

Language-Driven Physics-Based Scene Synthesis and Editing via Feature Splatting

Theoretical Benefit and Limitation of Diffusion Language Model

NeurIPS 2025arXiv

Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think

NeurIPS 2025arXiv

SPA: 3D Spatial-Awareness Enables Effective Embodied Representation

EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

NeurIPS 2025arXiv

SWE-bench Goes Live!

NeurIPS 2025arXiv

Temporal Reasoning Transfer from Text to Video

Influence-Guided Diffusion for Dataset Distillation

CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale

Do as We Do, Not as You Think: the Conformity of Large Language Models

VeriThinker: Learning to Verify Makes Reasoning Model Efficient

NeurIPS 2025arXiv

AMD: Automatic Multi-step Distillation of Large-scale Vision Models

UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

NeurIPS 2025arXiv

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

NeurIPS 2025arXiv

UFM: A Simple Path towards Unified Dense Correspondence with Flow

NeurIPS 2025arXiv

DiffuMatting: Synthesizing Arbitrary Objects with Matting-level Annotation

CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models

Unlocking Efficient, Scalable, and Continual Knowledge Editing with Basis-Level Representation Fine-Tuning

This Time is Different: An Observability Perspective on Time Series Foundation Models

NeurIPS 2025arXiv

Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

NeurIPS 2025arXiv

FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection

DC-Solver: Improving Predictor-Corrector Diffusion Sampler via Dynamic Compensation

Implicit In-context Learning

Interactive Speculative Planning: Enhance Agent Efficiency through Co-design of System and User Interface

EgoBlind: Towards Egocentric Visual Assistance for the Blind

NeurIPS 2025arXiv

LLMCO4MR: LLMs-aided Neural Combinatorial Optimization for Ancient Manuscript Restoration from Fragments with Case Studies on Dunhuang

Flow Matching-Based Autonomous Driving Planning with Advanced Interactive Behavior Modeling

NeurIPS 2025arXiv

STAR: Stability-Inducing Weight Perturbation for Continual Learning

MetaBox-v2: A Unified Benchmark Platform for Meta-Black-Box Optimization

NeurIPS 2025arXiv

Audio-Sync Video Generation with Multi-Stream Temporal Control

NeurIPS 2025arXiv

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

NeurIPS 2025arXiv

Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization

NeurIPS 2025arXiv

Rethinking Neural Combinatorial Optimization for Vehicle Routing Problems with Different Constraint Tightness Degrees

NeurIPS 2025arXiv

Attention! Your Vision Language Model Could Be Maliciously Manipulated

NeurIPS 2025arXiv

Improving Generalization of Neural Combinatorial Optimization for Vehicle Routing Problems via Test-Time Projection Learning

NeurIPS 2025arXiv

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

NeurIPS 2025arXiv

Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs

Image Editing As Programs with Diffusion Models

NeurIPS 2025arXiv

ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting

NeurIPS 2025arXiv

Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness

NeurIPS 2025arXiv

Teaching Language Models to Reason with Tools

NeurIPS 2025arXiv

MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference

NeurIPS 2025arXiv

SAS: Simulated Attention Score

NeurIPS 2025arXiv

Rotated Orthographic Projection for Self-Supervised 3D Human Pose Estimation

Holistic Large-Scale Scene Reconstruction via Mixed Gaussian Splatting

NeurIPS 2025arXiv

Cue3D: Quantifying the Role of Image Cues in Single-Image 3D Generation

NeurIPS 2025arXiv

RankSEG-RMA: An Efficient Segmentation Algorithm via Reciprocal Moment Approximation

NeurIPS 2025arXiv

Chains of Diffusion Models

Wonder Wins Ways: Curiosity-Driven Exploration through Multi-Agent Contextual Calibration

NeurIPS 2025arXiv

BlazeBVD: Make Scale-Time Equalization Great Again for Blind Video Deflickering

Block-Diagonal LoRA for Eliminating Communication Overhead in Tensor Parallel LoRA Serving

NeurIPS 2025arXiv

Don’t Forget the Enjoin: FocalLoRA for Instruction Hierarchical Alignment in Large Language Models

PlanU: Large Language Model Reasoning through Planning under Uncertainty

NeurIPS 2025arXiv

The Mirage of Performance Gains: Why Contrastive Decoding Fails to Mitigate Object Hallucinations in MLLMs?

NeurIPS 2025arXiv

NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval

NeurIPS 2025arXiv

Optimal Nuisance Function Tuning for Estimating a Doubly Robust Functional under Proportional Asymptotics

NeurIPS 2025arXiv

Emergent Orientation Maps —— Mechanisms, Coding Efficiency and Robustness

Learning Partial Graph Matching via Optimal Partial Transport

Semantic Temporal Abstraction via Vision-Language Model Guidance for Efficient Reinforcement Learning

Diffusing to the Top: Boost Graph Neural Networks with Minimal Hyperparameter Tuning

Nearly-Linear Time Private Hypothesis Selection with the Optimal Approximation Factor

NeurIPS 2025arXiv

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset