Chunyuan Li

38

Papers

1,381

Total Citations

Papers (38)

Variational Autoencoder for Deep Learning of Images, Labels and Captions

NeurIPS 2016arXiv

ALICE: Towards Understanding Adversarial Learning for Joint Distribution Matching

NeurIPS 2017arXiv

Triangle Generative Adversarial Networks

NeurIPS 2017arXiv

Adversarial Symmetric Variational Autoencoder

NeurIPS 2017arXiv

Visual In-Context Prompting

Graphic Design with Large Multimodal Model

Stochastic Gradient MCMC with Stale Gradients

NeurIPS 2016arXiv

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

VAE Learning via Stein Variational Gradient Descent

NeurIPS 2017arXiv

Unified Contrastive Learning in Image-Text-Label Space

Learning Customized Visual Models With Retrieval-Augmented Knowledge

GLIGEN: Open-Set Grounded Text-to-Image Generation

Generalized Decoding for Pixel, Image, and Language

Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation

A Simple Framework for Open-Vocabulary Segmentation and Detection

Structure-Aware Human-Action Generation

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Deep Temporal Sigmoid Belief Networks for Sequence Modeling

LLaVA-Critic: Learning to Evaluate Multimodal Models

Improved Baselines with Visual Instruction Tuning

Position: TrustLLM: Trustworthiness in Large Language Models

Learning Weight Uncertainty With Stochastic Gradient MCMC for Shape Classification

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-Training

Partition-Guided GANs

Grounded Language-Image Pre-Training

RegionCLIP: Region-Based Language-Image Pretraining

Towards Language-Free Training for Text-to-Image Generation

Twin Auxilary Classifiers GAN

Focal Attention for Long-Range Interactions in Vision Transformers

Focal Modulation Networks

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

K-LITE: Learning Transferable Visual Models with External Knowledge

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Visual Instruction Tuning

Large Language Models are Visual Reasoning Coordinators

Adversarial Time-to-Event Modeling

Continuous-Time Flows for Efficient Inference and Density Estimation

Policy Optimization as Wasserstein Gradient Flows