Yiyi Zhou

8

Papers

98

Total Citations

Papers (8)

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

What Kind of Visual Tokens Do We Need? Training-Free Visual Token Pruning for Multi-Modal Large Language Models from the Perspective of Graph

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings

NeurIPS 2025arXiv

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

SVFR: A Unified Framework for Generalized Video Face Restoration

DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization