Jiaming Tang

4

Papers

177

Total Citations

1

Affiliations

Affiliations

MIT

Papers (4)

DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

Twilight: Adaptive Attention Sparsity with Hierarchical Top-$p$ Pruning

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference