Xiufeng Song

4

Papers

43

Total Citations

Papers (4)

Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

VIKI‑R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

NeurIPS 2025arXiv

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines