Xinyu Wei

5

Papers

101

Total Citations

Papers (5)

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

NeurIPS 2025arXiv

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

NeurIPS 2025arXiv

Cloud-Device Collaborative Learning for Multimodal Large Language Models

Event2Tracking: Reconstructing Multi-Agent Soccer Trajectories Using Long-Term Multimodal Context