Wenyi Hong

Google Scholar OpenReview

8

Papers

1,626

Total Citations

15

h-index

Papers (8)

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

LVBench: An Extreme Long Video Understanding Benchmark

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

CogAgent: A Visual Language Model for GUI Agents

CogView: Mastering Text-to-Image Generation via Transformers

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers