Amanpreet Singh

12

Papers

212

Total Citations

Papers (12)

Generative Representational Instruction Tuning

Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

TextOCR: Towards Large-Scale End-to-End Reasoning for Arbitrary-Shaped Scene Text

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

Unsupervised Vision-and-Language Pre-Training via Retrieval-Based Multi-Granular Alignment

FLAVA: A Foundational Language and Vision Alignment Model

UniT: Multimodal Multitask Learning With a Unified Transformer

TextCaps: a Dataset for Image Captioning with Reading Comprehension

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation

The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes

NeurIPS 2020arXiv

Human-Adversarial Visual Question Answering

NeurIPS 2021arXiv

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

NeurIPS 2023arXiv