Zhenheng Yang

8

Papers

838

Total Citations

Papers (8)

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

Show-o2: Improved Native Unified Multimodal Models

NeurIPS 2025arXiv

Long Context Tuning for Video Generation

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

NeurIPS 2025arXiv

Parallelized Autoregressive Visual Generation