Vicente Ordonez

20

Papers

64

Total Citations

Papers (20)

ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation

Grounding Language Models for Visual Entity Recognition

ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders

LOCORE: Image Re-ranking with Long-Context Sequence Modeling

Improving Large Vision and Language Models by Learning from a Panel of Peers

Text2Scene: Generating Compositional Scenes From Textual Descriptions

General Multi-Label Image Classification With Transformers

Black-Box Explanation of Object Detectors via Saliency Maps

SimVQA: Exploring Simulated Environments for Visual Question Answering

Improving Visual Grounding by Encouraging Consistent Gradient-Based Explanations

Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations

Instance-Level Image Retrieval Using Reranking Transformers

MEDIRL: Predicting the Visual Attention of Drivers via Maximum Entropy Deep Inverse Reinforcement Learning

Going Beyond Nouns With Vision & Language Models Using Synthetic Data

Generative-Discriminative Feature Representations for Open-Set Recognition

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

Improved Visual Grounding through Self-Consistent Explanations

Commonly Uncommon: Semantic Sparsity in Situation Recognition

Feedback-Prop: Convolutional Neural Network Inference Under Partial Evidence

Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries