Amanpreet Singh

14

Papers

212

Total Citations

Papers (14)

Generative Representational Instruction Tuning

Towards VQA Models That Can Read

Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

TextOCR: Towards Large-Scale End-to-End Reasoning for Arbitrary-Shaped Scene Text

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

Unsupervised Vision-and-Language Pre-Training via Retrieval-Based Multi-Granular Alignment

FLAVA: A Foundational Language and Vision Alignment Model

UniT: Multimodal Multitask Learning With a Unified Transformer

TextCaps: a Dataset for Image Captioning with Reading Comprehension

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes

Human-Adversarial Visual Question Answering

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents