LU ZHANG

28

Papers

4,473

Total Citations

Papers (28)

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

Training Language Models to Self-Correct via Reinforcement Learning

Segment and Recognize Anything at Any Granularity

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

Asynchronous Large Language Model Enhanced Planner for Autonomous Driving

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

NeurIPS 2025arXiv

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

NeurIPS 2025arXiv

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

NeurIPS 2025arXiv

SWE-bench Goes Live!

NeurIPS 2025arXiv

Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning

Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models

Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding

Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation

Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding

CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching

NeurIPS 2025arXiv

Toward Generalizing Visual Brain Decoding to Unseen Subjects

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

NeurIPS 2025arXiv

General Geometry-aware Weakly Supervised 3D Object Detection

ScImage: How good are multimodal large language models at scientific text-to-image generation?

MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM

NeurIPS 2025arXiv

S'MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning

NeurIPS 2025arXiv

Catastrophic Overfitting: A Potential Blessing in Disguise

Risk-aware Direct Preference Optimization under Nested Risk Measure

NeurIPS 2025arXiv

S-Crescendo: A Nested Transformer Weaving Framework for Scalable Nonlinear System in S-Domain Representation

NeurIPS 2025arXiv

D2SA: Dual-Stage Distribution and Slice Adaptation for Efficient Test-Time Adaptation in MRI Reconstruction

NeurIPS 2025arXiv

Analyzing the Power of Chain of Thought through Memorization Capabilities

NeurIPS 2025arXiv