Zhe Gan

4

Papers

64

Total Citations

Papers (4)

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

Multimodal Autoregressive Pre-training of Large Vision Encoders

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing