Zhihang Yuan

10

Papers

132

Total Citations

Papers (10)

PB-LLM: Partially Binarized Large Language Models

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training

DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance

DLFR-Gen: Diffusion-based Video Generation with Dynamic Latent Frame Rate

Learning High-Frequency Functions Made Easy with Sinusoidal Positional Encoding

EA-Vit: Efficient Adaptation for Elastic Vision Transformer

QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning

PillarHist: A Quantization-aware Pillar Feature Encoder based on Height-aware Histogram