Zhu

28

Papers

1,058

Total Citations

Papers (28)

MobileNetV4: Universal Models for the Mobile Ecosystem

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

NeurIPS 2025arXiv

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning

NeurIPS 2025arXiv

Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clustering

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching

NeurIPS 2025arXiv

$\text{D}_{2}\text{O}$: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models

SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head

OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models

Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging

NeurIPS 2025arXiv

NetMoE: Accelerating MoE Training through Dynamic Sample Placement

KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval

UniCoTT: A Unified Framework for Structural Chain-of-Thought Distillation

WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

NeurIPS 2025arXiv

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

NeurIPS 2025arXiv

Rotated Orthographic Projection for Self-Supervised 3D Human Pose Estimation

SEBRA : Debiasing through Self-Guided Bias Ranking

Scaling Instruction-tuned LLMs to Million-token Contexts via Hierarchical Synthetic Data Generation

Blackbox Model Provenance via Palimpsestic Membership Inference

NeurIPS 2025arXiv

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

NeurIPS 2025arXiv

AANet: Virtual Screening under Structural Uncertainty via Alignment and Aggregation

NeurIPS 2025arXiv

World Models Should Prioritize the Unification of Physical and Social Dynamics

NeurIPS 2025arXiv

Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm

NeurIPS 2025arXiv