Zhu

23

Papers

851

Total Citations

Papers (23)

MobileNetV4: Universal Models for the Mobile Ecosystem

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

NeurIPS 2025arXiv

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clustering

$\text{D}_{2}\text{O}$: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models

SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head

OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models

Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging

NeurIPS 2025arXiv

NetMoE: Accelerating MoE Training through Dynamic Sample Placement

UniCoTT: A Unified Framework for Structural Chain-of-Thought Distillation

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

NeurIPS 2025arXiv

WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

NeurIPS 2025arXiv

SEBRA : Debiasing through Self-Guided Bias Ranking

Scaling Instruction-tuned LLMs to Million-token Contexts via Hierarchical Synthetic Data Generation

Rotated Orthographic Projection for Self-Supervised 3D Human Pose Estimation

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

NeurIPS 2025arXiv

Blackbox Model Provenance via Palimpsestic Membership Inference

NeurIPS 2025arXiv

AANet: Virtual Screening under Structural Uncertainty via Alignment and Aggregation

NeurIPS 2025arXiv

Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm

NeurIPS 2025arXiv