Shang Yang

4

Papers

181

Total Citations

Papers (4)

DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

NeurIPS 2025arXiv

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

NVILA: Efficient Frontier Visual Language Models