Weizhu Chen

12

Papers

415

Total Citations

Papers (12)

LoftQ: LoRA-Fine-Tuning-aware Quantization for Large Language Models

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Key-Point-Driven Data Synthesis with Its Enhancement on Mathematical Reasoning

Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

NeurIPS 2025arXiv

MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning

Scalable Learning to Optimize: A Learned Optimizer Can Train Big Models

Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

NeurIPS 2021arXiv

Meet in the Middle: A New Pre-training Paradigm

NeurIPS 2023arXiv

In-Context Learning Unlocked for Diffusion Models

NeurIPS 2023arXiv

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

NeurIPS 2023arXiv

Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models

NeurIPS 2023arXiv