Yufei Zhan

4

Papers

32

Total Citations

Papers (4)

Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models

Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation

NeurIPS 2025arXiv