2024 "llm inference efficiency" Papers

3 papers found

Filters:2024 llm inference efficiency Clear all

Conference

AAAI 2025 (3,028)CVPR 2025 (2,873)ICCV 2025 (2,701)ICLR 2025 (3,827)ICML 2025 (3,340)ISMAR 2025 (229)NeurIPS 2025 (5,858)AAAI 2024 (2,289)CVPR 2024 (2,716)ECCV 2024 (2,387)ICLR 2024 (2,297)ICML 2024 (2,635)

Paper Type

poster (24,624)paper (8,140)oral (1,594)spotlight (1,421)highlight (975)

CLLMs: Consistency Large Language Models

Siqi Kou, Lanxiang Hu, Zhezhi He et al.

ICML 2024posterarXiv:2403.00835

Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference

Harry Dong, Xinyu Yang, Zhenyu Zhang et al.

ICML 2024posterarXiv:2402.09398

Online Cascade Learning for Efficient Inference over Streams

Lunyiu Nie, Zhimin Ding, Erdong Hu et al.

ICML 2024posterarXiv:2402.04513