Yibing Song

9

Papers

361

Total Citations

Papers (9)

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

Image Inpainting via Iteratively Decoupled Probabilistic Modeling

Re-Aligning Language to Visual Objects with an Agentic Workflow

CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step

A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs

AvatarArtist: Open-Domain 4D Avatarization

UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation

Advancing Textual Prompt Learning with Anchored Attributes

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows