Jing Shi

10

Papers

422

Total Citations

Papers (10)

InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

FineMatch: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction

VIXEN: Visual Text Comparison Network for Image Difference Captioning

Visual Persona: Foundation Model for Full-Body Human Customization

Poplar: Efficient Scaling of Distributed DNN Training on Heterogeneous GPU Clusters

The Photographer's Eye: Teaching Multimodal Large Language Models to See, and Critique Like Photographers

Improving Large Vision and Language Models by Learning from a Panel of Peers

DiffTell: A High-Quality Dataset for Describing Image Manipulation Changes

Yo’Chameleon: Personalized Vision and Language Generation