Jiasen Lu

16

Papers

1,852

Total Citations

Papers (16)

Hierarchical Question-Image Co-Attention for Visual Question Answering

NeurIPS 2016arXiv

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

One Diffusion to Generate Them All

STIV: Scalable Text and Image Conditioned Video Generation

Neural Baby Talk

12-in-1: Multi-Task Vision and Language Representation Learning

VQA: Visual Question Answering

Spatially Aware Multimodal Transformers for TextVQA

Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model

NeurIPS 2017arXiv

MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action

Human Action Segmentation With Hierarchical Supervoxel Consistency

Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data

Container: Context Aggregation Networks