Shuhuai Ren

5

Papers

1,280

Total Citations

Papers (5)

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding

VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models

Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

Parallelized Autoregressive Visual Generation