Lin Song

5

Papers

24

Total Citations

Papers (5)

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

NeurIPS 2025arXiv

HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding

YOLO-World: Real-Time Open-Vocabulary Object Detection

Low-Rank Approximation for Sparse Attention in Multi-Modal LLMs

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio Video Point Cloud Time-Series and Image Recognition