Xiaotao Gu

6

Papers

1,605

Total Citations

Papers (6)

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

LVBench: An Extreme Long Video Understanding Benchmark

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization