Zongyang Ma

4

Papers

11

Total Citations

Papers (4)

EA-VTR: Event-Aware Video-Text Retrieval

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

NeurIPS 2025arXiv

VisionMath: Vision-Form Mathematical Problem-Solving

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?