Ming-Yu Liu

11

Papers

393

Total Citations

Papers (11)

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Describe Anything: Detailed Localized Image and Video Captioning

JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

Condition-Aware Neural Network for Controlled Image Generation

Efficient Part-level 3D Object Generation via Dual Volume Packing

NeurIPS 2025arXiv

Dynamic Camera Poses and Where to Find Them

ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary

A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation

Articulated Kinematics Distillation from Video Diffusion Models

HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation