Sohail Dianat

5

Papers

84

Total Citations

Papers (5)

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

AMD: Automatic Multi-step Distillation of Large-scale Vision Models

Latent Chain-of-Thought for Visual Reasoning

NeurIPS 2025arXiv

Structured Policy Optimization: Enhance Large Vision-Language Model via Self-referenced Dialogue

Prototypical Transformer As Unified Motion Learners