Zhe Gan

5

Papers

107

Total Citations

Papers (5)

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

Multimodal Autoregressive Pre-training of Large Vision Encoders

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing