Yali Wang

18

Papers

2,060

Total Citations

Papers (18)

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

VideoMamba: State Space Model for Efficient Video Understanding

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving

V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents

M-BEV: Masked BEV Perception for Robust Autonomous Driving

Muses: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration

Vlogger: Make Your Dream A Vlog

LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents

WeGen: A Unified Model for Interactive Multimodal Generation as We Chat

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI