Zhe Gan

50

Papers

1,103

Total Citations

Papers (50)

Variational Autoencoder for Deep Learning of Images, Labels and Captions

NeurIPS 2016arXiv

Triangle Generative Adversarial Networks

NeurIPS 2017arXiv

Adversarial Symmetric Variational Autoencoder

NeurIPS 2017arXiv

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

VAE Learning via Stein Variational Gradient Descent

NeurIPS 2017arXiv

AttnGAN: Fine-Grained Text to Image Generation With Attentional Generative Adversarial Networks

StoryGAN: A Sequential Conditional GAN for Story Visualization

Tactical Rewind: Self-Correction via Backtracking in Vision-And-Language Navigation

BachGAN: High-Resolution Image Synthesis From Salient Object Layout

Violin: A Large-Scale Dataset for Video-and-Language Inference

Wasserstein Contrastive Representation Distillation

SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

An Empirical Study of Training End-to-End Vision-and-Language Transformers

Injecting Semantic Concepts Into End-to-End Image Captioning

Scaling Up Vision-Language Pre-Training for Image Captioning

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling

ReCo: Region-Controlled Text-to-Image Generation

LAVENDER: Unifying Video-Language Understanding As Masked Language Modeling

Generalized Decoding for Pixel, Image, and Language

Non-Contrastive Learning Meets Language-Image Pre-Training

Relation-Aware Graph Attention Network for Visual Question Answering

Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models

Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

UNITER: UNiversal Image-TExt Representation Learning

UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling

Deep Temporal Sigmoid Belief Networks for Sequence Modeling

Deep Poisson Factor Modeling

Deconvolutional Paragraph Representation Learning

NeurIPS 2017arXiv

Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Multimodal Autoregressive Pre-training of Large Vision Encoders

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing

Learning Weight Uncertainty With Stochastic Gradient MCMC for Shape Classification

StyleNet: Generating Attractive Visual Captions With Styles

Semantic Compositional Networks for Visual Captioning

Adversarial Text Generation via Feature-Mover's Distance

NeurIPS 2018arXiv

Generating Informative and Diverse Conversational Responses via Adversarial Information Maximization

Improving Textual Network Learning with Variational Homophilic Embeddings

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

Chasing Sparsity in Vision Transformers: An End-to-End Exploration

Data-Efficient GAN Training Beyond (Just) Augmentations: A Lottery Ticket Perspective

The Elastic Lottery Ticket Hypothesis

NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis

K-LITE: Learning Transferable Visual Models with External Knowledge

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

Scalable Deep Poisson Factor Analysis for Topic Modeling

Factored Temporal Sigmoid Belief Networks for Sequence Learning

Stochastic Gradient Monomial Gamma Sampler

Adversarial Feature Matching for Text Generation

JointGAN: Multi-Domain Joint Distribution Learning with Generative Adversarial Nets