Zihao Yue

4

papers

57

total citations

papers (4)

Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding

NeurIPS 2025arXiv

VideoOrion: Tokenizing Object Dynamics in Videos

Unified Multimodal Understanding via Byte-Pair Visual Encoding

Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation

NeurIPS 2023arXiv