Yinan He

10

Papers

2,711

Total Citations

Papers (10)

VBench: Comprehensive Benchmark Suite for Video Generative Models

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

VideoMamba: State Space Model for Efficient Video Understanding

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

NeurIPS 2025arXiv

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

WISNet: Pseudo Label Generation on Unbalanced and Patch Annotated Waste Images

DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations