Zhengyuan Yang

29

Papers

316

Total Citations

Papers (29)

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

SGFormer: Semantic Graph Transformer for Point Cloud-Based 3D Scene Graph Generation

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Attentive Relational Networks for Mapping Images to Scene Graphs

TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Scaling Up Vision-Language Pre-Training for Image Captioning

ReCo: Region-Controlled Text-to-Image Generation

A Fast and Accurate One-Stage Approach to Visual Grounding

SAT: 2D Semantics Assisted Training for 3D Visual Grounding

TransVG: End-to-End Visual Grounding With Transformers

PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3

Equivariant Similarity for Vision-Language Foundation Models

Improving One-stage Visual Grounding by Recursive Sub-query Construction

LiVOS: Light Video Object Segmentation with Gated Linear Matching

UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

SITE: towards Spatial Intelligence Thorough Evaluation

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning

DisCo: Disentangled Control for Realistic Human Dance Generation

StrokeNUWA—Tokenizing Strokes for Vector Graphic Synthesis