Hang Li

8

Papers

559

Total Citations

Papers (8)

Vision-Language Foundation Models as Effective Robot Imitators

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

FedBiP: Heterogeneous One-Shot Federated Learning with Personalized Latent Diffusion Models

Make Pixels Dance: High-Dynamic Video Generation

MIMO: A Medical Vision Language Model with Visual Referring Multimodal Input and Pixel Grounding Multimodal Output

Boximator: Generating Rich and Controllable Motions for Video Synthesis

Learning Flow Fields in Attention for Controllable Person Image Generation

Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation