Zhihang Yuan

16

Papers

132

Total Citations

Papers (16)

PB-LLM: Partially Binarized Large Language Models

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training

DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance

DLFR-Gen: Diffusion-based Video Generation with Dynamic Latent Frame Rate

S2DNAS: Transforming Static CNN Model for Dynamic Inference via Neural Architecture Search

PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization

PillarHist: A Quantization-aware Pillar Feature Encoder based on Height-aware Histogram

EA-Vit: Efficient Adaptation for Elastic Vision Transformer

QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning

Learning High-Frequency Functions Made Easy with Sinusoidal Positional Encoding

Post-Training Quantization on Diffusion Models

PD-Quant: Post-Training Quantization Based on Prediction Difference Metric

Latency-aware Spatial-wise Dynamic Networks

MIM4DD: Mutual Information Maximization for Dataset Distillation