Jianwei Yang

35

Papers

2,038

Total Citations

Papers (35)

Hierarchical Question-Image Co-Attention for Visual Question Answering

NeurIPS 2016arXiv

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

Matryoshka Multimodal Models

Visual In-Context Prompting

VCoder: Versatile Vision Encoders for Multimodal Large Language Models

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

Pix2Gif: Motion-Guided Diffusion for GIF Generation

Unified Contrastive Learning in Image-Text-Label Space

Learning Customized Visual Models With Retrieval-Augmented Knowledge

GLIGEN: Open-Set Grounded Text-to-Image Generation

Generalized Decoding for Pixel, Image, and Language

Embodied Amodal Recognition: Learning to Move to Perceive Objects

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

TACo: Token-Aware Cascade Contrastive Learning for Video-Text Alignment

Dynamic DETR: End-to-End Object Detection With Dynamic Attention

Learning To Generate Scene Graph From Natural Language Supervision

A Simple Framework for Open-Vocabulary Segmentation and Detection

Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model

NeurIPS 2017arXiv

Magma: A Foundation Model for Multimodal AI Agents

Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation

SITE: towards Spatial Intelligence Thorough Evaluation

Joint Unsupervised Learning of Deep Representations and Image Clusters

Neural Baby Talk

VinVL: Revisiting Visual Representations in Vision-Language Models

Grounded Language-Image Pre-Training

RegionCLIP: Region-Based Language-Image Pretraining

Cross-channel Communication Networks

Focal Attention for Long-Range Interactions in Vision Transformers

Focal Modulation Networks

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models

K-LITE: Learning Transferable Visual Models with External Knowledge

Segment Everything Everywhere All at Once

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection