Zhengyuan Yang

17

Papers

316

Total Citations

Papers (17)

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

SGFormer: Semantic Graph Transformer for Point Cloud-Based 3D Scene Graph Generation

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

LiVOS: Light Video Object Segmentation with Gated Linear Matching

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

SITE: towards Spatial Intelligence Thorough Evaluation

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning

DisCo: Disentangled Control for Realistic Human Dance Generation

StrokeNUWA—Tokenizing Strokes for Vector Graphic Synthesis