Guohao Sun

5

Papers

93

Total Citations

Papers (5)

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

Latent Chain-of-Thought for Visual Reasoning

NeurIPS 2025arXiv

Structured Policy Optimization: Enhance Large Vision-Language Model via Self-referenced Dialogue

Prototypical Transformer As Unified Motion Learners