Anurag Arnab

12

Papers

318

Total Citations

Papers (12)

On Scaling Up a Multilingual Vision and Language Model

VicTR: Video-conditioned Text Representations for Activity Recognition

Flexible Frame Selection for Efficient Video Reasoning

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames

NeurIPS 2025arXiv

Dense Video Object Captioning from Disjoint Supervision

From Image to Video: An Empirical Study of Diffusion Representations

End-to-End Spatio-Temporal Action Localisation with Video Transformers

Pixel-Aligned Language Model

Time- Memory- and Parameter-Efficient Visual Adaptation

Principles of Visual Tokens for Efficient Video Understanding

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

Streaming Dense Video Captioning