Arsha Nagrani

28

Papers

327

Total Citations

Papers (28)

On Scaling Up a Multilingual Vision and Language Model

VicTR: Video-conditioned Text Representations for Activity Recognition

AutoAD III: The Prequel – Back to the Pixels

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

Seeing Voices and Hearing Faces: Cross-Modal Biometric Matching

Speech2Action: Cross-Modal Supervision for Action Recognition

Localizing Visual Sounds the Hard Way

Look Before You Speak: Visually Contextualized Utterances

End-to-End Generative Pretraining for Multimodal Video Captioning

AVFormer: Injecting Vision Into Frozen Speech Models for Zero-Shot AV-ASR

AutoAD: Movie Description in Context

EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

Composable Augmentation Encoding for Video Representation Learning

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

AutoAD II: The Sequel - Who, When, and What in Movie Audio Description

Verbs in Action: Improving Verb Understanding in Video-Language Models

UnLoc: A Unified Framework for Video Localization Tasks

Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos

Learning Audio-Video Modalities from Image Captions

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

Flexible Frame Selection for Efficient Video Reasoning

MINERVA: Evaluating Complex Video Reasoning

Streaming Dense Video Captioning

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

Attention Bottlenecks for Multimodal Fusion

VidChapters-7M: Video Chapters at Scale