Yinfei Yang

6

Papers

1,427

Total Citations

Papers (6)

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

STIV: Scalable Text and Image Conditioned Video Generation

Multimodal Autoregressive Pre-training of Large Vision Encoders

MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing