Yali Wang

37

Papers

2,058

Total Citations

Papers (37)

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

VideoMamba: State Space Model for Efficient Video Understanding

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving

V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents

Target-Relevant Knowledge Preservation for Multi-Source Domain Adaptive Object Detection

Dual-AI: Dual-Path Actor Interaction Learning for Group Activity Recognition

Cross Domain Object Detection by Target-Perceived Dual Branch Distillation

VideoMAE V2: Scaling Video Masked Autoencoders With Dual Masking

Starting From Non-Parametric Networks for 3D Point Cloud Analysis

MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling With Informative-Preserved Reconstruction and Self-Distilled Consistency

RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos

Digging Into Uncertainty in Self-Supervised Multi-View Stereo

UniFormerV2: Unlocking the Potential of Image ViTs for Video Understanding

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

HTML: Hybrid Temporal-scale Multimodal Learning Framework for Referring Video Object Segmentation

Mining Inter-Video Proposal Relations for Video Object Detection

Self-Slimmed Vision Transformer

MorphMLP: An Efficient MLP-Like Backbone for Spatial-Temporal Representation Learning

WeGen: A Unified Model for Interactive Multimodal Generation as We Chat

LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents

Muses: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration

M-BEV: Masked BEV Perception for Robust Autonomous Driving

Vlogger: Make Your Dream A Vlog

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

Temporal Hallucinating for Action Recognition With Few Still Images

MetaCleaner: Learning to Hallucinate Clean Representations for Noisy-Labeled Visual Recognition

Adaptive Pyramid Context Network for Semantic Segmentation

PA3D: Pose-Action 3D Machine for Video Recognition

SmallBigNet: Integrating Core and Contextual Views for Video Classification