Ming Ding

Google Scholar OpenReview

5

Papers

1,626

Total Citations

23

h-index

Papers (5)

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

LVBench: An Extreme Long Video Understanding Benchmark

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

CogAgent: A Visual Language Model for GUI Agents