wang

99

Papers

1,998

Total Citations

Papers (99)

Video-R1: Reinforcing Video Reasoning in MLLMs

NeurIPS 2025arXiv

Advancing LLM Reasoning Generalists with Preference Trees

SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

Tamper-Resistant Safeguards for Open-Weight LLMs

Autoregressive Video Generation without Vector Quantization

TLControl: Trajectory and Language Control for Human Motion Synthesis

BAD-Gaussians: Bundle Adjusted Deblur Gaussian Splatting

DSBench: How Far Are Data Science Agents from Becoming Data Science Experts?

MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

WritingBench: A Comprehensive Benchmark for Generative Writing

NeurIPS 2025arXiv

Dynamic Diffusion Transformer

AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding

Language-Driven Physics-Based Scene Synthesis and Editing via Feature Splatting

Theoretical Benefit and Limitation of Diffusion Language Model

NeurIPS 2025arXiv

Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think

NeurIPS 2025arXiv

Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation

SPA: 3D Spatial-Awareness Enables Effective Embodied Representation

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

NeurIPS 2025arXiv

EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks

SWE-bench Goes Live!

NeurIPS 2025arXiv

Temporal Reasoning Transfer from Text to Video

Influence-Guided Diffusion for Dataset Distillation

Do as We Do, Not as You Think: the Conformity of Large Language Models

CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale

VeriThinker: Learning to Verify Makes Reasoning Model Efficient

NeurIPS 2025arXiv

Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model

AMD: Automatic Multi-step Distillation of Large-scale Vision Models

UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

NeurIPS 2025arXiv

CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models

DiffuMatting: Synthesizing Arbitrary Objects with Matting-level Annotation

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

NeurIPS 2025arXiv

UFM: A Simple Path towards Unified Dense Correspondence with Flow

NeurIPS 2025arXiv

Unlocking Efficient, Scalable, and Continual Knowledge Editing with Basis-Level Representation Fine-Tuning

This Time is Different: An Observability Perspective on Time Series Foundation Models

NeurIPS 2025arXiv

Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

NeurIPS 2025arXiv

On Reasoning Strength Planning in Large Reasoning Models

NeurIPS 2025arXiv

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

NeurIPS 2025arXiv

Implicit In-context Learning

FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection

EgoBlind: Towards Egocentric Visual Assistance for the Blind

NeurIPS 2025arXiv

DC-Solver: Improving Predictor-Corrector Diffusion Sampler via Dynamic Compensation

Interactive Speculative Planning: Enhance Agent Efficiency through Co-design of System and User Interface

UniCoTT: A Unified Framework for Structural Chain-of-Thought Distillation

LLMCO4MR: LLMs-aided Neural Combinatorial Optimization for Ancient Manuscript Restoration from Fragments with Case Studies on Dunhuang

OSDA Agent: Leveraging Large Language Models for De Novo Design of Organic Structure Directing Agents

ELICIT: LLM Augmentation Via External In-context Capability

STAR: Stability-Inducing Weight Perturbation for Continual Learning

Flow Matching-Based Autonomous Driving Planning with Advanced Interactive Behavior Modeling

NeurIPS 2025arXiv

Pushing the Limits of All-Atom Geometric Graph Neural Networks: Pre-Training, Scaling, and Zero-Shot Transfer

WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception

NeurIPS 2025arXiv

MetaBox-v2: A Unified Benchmark Platform for Meta-Black-Box Optimization

NeurIPS 2025arXiv

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

NeurIPS 2025arXiv

Advantage-Guided Distillation for Preference Alignment in Small Language Models

Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization

NeurIPS 2025arXiv

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

NeurIPS 2025arXiv

Rethinking Neural Combinatorial Optimization for Vehicle Routing Problems with Different Constraint Tightness Degrees

NeurIPS 2025arXiv

Audio-Sync Video Generation with Multi-Stream Temporal Control

NeurIPS 2025arXiv

Who You Are Matters: Bridging Interests and Social Roles via LLM-Enhanced Logic Recommendation

Attention! Your Vision Language Model Could Be Maliciously Manipulated

NeurIPS 2025arXiv

Improving Generalization of Neural Combinatorial Optimization for Vehicle Routing Problems via Test-Time Projection Learning

NeurIPS 2025arXiv

HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters

Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on Diagnosis-Related Group Coding

NeurIPS 2025arXiv

Image Editing As Programs with Diffusion Models

NeurIPS 2025arXiv

SAS: Simulated Attention Score

NeurIPS 2025arXiv

ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting

NeurIPS 2025arXiv

Teaching Language Models to Reason with Tools

NeurIPS 2025arXiv

MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference

NeurIPS 2025arXiv

Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness

NeurIPS 2025arXiv

Rotated Orthographic Projection for Self-Supervised 3D Human Pose Estimation

Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs

Multi-Task Domain Adaptation for Language Grounding with 3D Objects

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

NeurIPS 2025arXiv

Holistic Large-Scale Scene Reconstruction via Mixed Gaussian Splatting

NeurIPS 2025arXiv

Cue3D: Quantifying the Role of Image Cues in Single-Image 3D Generation

NeurIPS 2025arXiv

OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

NeurIPS 2025arXiv

Hierarchical Optimization via LLM-Guided Objective Evolution for Mobility-on-Demand Systems

NeurIPS 2025arXiv

Emergent Orientation Maps —— Mechanisms, Coding Efficiency and Robustness

Learning Partial Graph Matching via Optimal Partial Transport

Optimal Nuisance Function Tuning for Estimating a Doubly Robust Functional under Proportional Asymptotics

NeurIPS 2025arXiv

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

NeurIPS 2025arXiv

NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval

NeurIPS 2025arXiv

BlazeBVD: Make Scale-Time Equalization Great Again for Blind Video Deflickering

Semantic Temporal Abstraction via Vision-Language Model Guidance for Efficient Reinforcement Learning

MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization

NeurIPS 2025arXiv

PlanU: Large Language Model Reasoning through Planning under Uncertainty

NeurIPS 2025arXiv

Don’t Forget the Enjoin: FocalLoRA for Instruction Hierarchical Alignment in Large Language Models

The Mirage of Performance Gains: Why Contrastive Decoding Fails to Mitigate Object Hallucinations in MLLMs?

NeurIPS 2025arXiv

Nearly-Linear Time Private Hypothesis Selection with the Optimal Approximation Factor

NeurIPS 2025arXiv

Diffusing to the Top: Boost Graph Neural Networks with Minimal Hyperparameter Tuning

RankSEG-RMA: An Efficient Segmentation Algorithm via Reciprocal Moment Approximation

NeurIPS 2025arXiv

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

Chains of Diffusion Models

Wonder Wins Ways: Curiosity-Driven Exploration through Multi-Agent Contextual Calibration

NeurIPS 2025arXiv

Off-policy Reinforcement Learning with Model-based Exploration Augmentation

NeurIPS 2025arXiv

Block-Diagonal LoRA for Eliminating Communication Overhead in Tensor Parallel LoRA Serving

NeurIPS 2025arXiv