Zongyang Ma

6

Papers

4

Total Citations

Papers (6)

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

NeurIPS 2025arXiv

VisionMath: Vision-Form Mathematical Problem-Solving

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

Open-Vocabulary One-Stage Detection With Hierarchical Visual-Language Knowledge Distillation

ViLEM: Visual-Language Error Modeling for Image-Text Retrieval

Order-Prompted Tag Sequence Generation for Video Tagging