Xinyu Wei

4

Papers

76

Total Citations

Papers (4)

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

NeurIPS 2025arXiv

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

Cloud-Device Collaborative Learning for Multimodal Large Language Models

Event2Tracking: Reconstructing Multi-Agent Soccer Trajectories Using Long-Term Multimodal Context