Devi Parikh

57

Papers

1,940

Total Citations

Papers (57)

Hierarchical Question-Image Co-Attention for Visual Question Answering

NeurIPS 2016arXiv

Emu Edit: Precise Image Editing via Recognition and Generation Tasks

Image Specificity

Don't Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-Visual Tasks

CIDEr: Consensus-Based Image Description Evaluation

We Are Humor Beings: Understanding and Predicting Visual Humor

Visual Word2Vec (vis-w2v): Learning Visually Grounded Word Embeddings Using Abstract Scenes

Yin and Yang: Balancing and Answering Binary Visual Questions

Joint Unsupervised Learning of Deep Representations and Image Clusters

Context-Aware Captions From Context-Agnostic Supervision

Visual Dialog

Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning

Counting Everyday Objects in Everyday Scenes

Making the v in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering

Neural Baby Talk

Cycle-Consistency for Robust Visual Question Answering

Embodied Question Answering in Photorealistic Environments With Point Cloud Perception

Audio Visual Scene-Aware Dialog

Towards VQA Models That Can Read

SQuINTing at VQA Models: Introspecting VQA Models With Sub-Questions

12-in-1: Multi-Task Vision and Language Representation Learning

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA

Episodic Memory Question Answering

SpaText: Spatio-Textual Representation for Controllable Image Generation

VQA: Visual Question Answering

Learning Common Sense Through Visual Abstraction

Grad-CAM: Visual Explanations From Deep Networks via Gradient-Based Localization

SplitNet: Sim2Sim and Task2Task Transfer for Embodied Visual Navigation

Embodied Amodal Recognition: Learning to Move to Perceive Objects

Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded

Align2Ground: Weakly Supervised Phrase Grounding Guided by Image-Caption Alignment

Fashion++: Minimal Edits for Outfit Improvement

nocaps: novel object captioning at scale

Habitat: A Platform for Embodied AI Research

Contrast and Classify: Training Robust VQA Models

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

Spatially Aware Multimodal Transformers for TextVQA

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation

MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration

Make-a-Scene: Scene-Based Text-to-Image Generation with Human Priors

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer

Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model

NeurIPS 2017arXiv

Embodied Question Answering

Understanding Image Virality

RUBi: Reducing Unimodal Biases for Visual Question Answering

Chasing Ghosts: Instruction Following as Bayesian State Tracking

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Cross-channel Communication Networks

Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data

Human-Adversarial Visual Question Answering

TarMAC: Targeted Multi-Agent Communication

Counterfactual Visual Explanations

Probabilistic Neural Symbolic Models for Interpretable Visual Question Answering