Yuxiao Dong

11

Papers

1,803

Total Citations

Papers (11)

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

LVBench: An Extreme Long Video Understanding Benchmark

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

TriSampler: A Better Negative Sampling Principle for Dense Retrieval

CogAgent: A Visual Language Model for GUI Agents

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models