Yizhuo Li

4

Papers

1,279

Total Citations

Papers (4)

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos