Weihan Wang

7

Papers

1,559

Total Citations

Papers (7)

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

LVBench: An Extreme Long Video Understanding Benchmark

CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

CogAgent: A Visual Language Model for GUI Agents

Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty Estimation

ViLTA: Enhancing Vision-Language Pre-training through Textual Augmentation