Can Huang

4

Papers

16

Total Citations

Papers (4)

Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM

GLOMA: Global Video Text Spotting with Morphological Association

ParGo: Bridging Vision-Language with Partial and Global Views

Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer