Arsha Nagrani

9

Papers

337

Total Citations

Papers (9)

On Scaling Up a Multilingual Vision and Language Model

VicTR: Video-conditioned Text Representations for Activity Recognition

AutoAD III: The Prequel – Back to the Pixels

Flexible Frame Selection for Efficient Video Reasoning

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

Streaming Dense Video Captioning

MINERVA: Evaluating Complex Video Reasoning