Trevor Darrell

128

Papers

2,492

Total Citations

Papers (128)

Toward Multimodal Image-to-Image Translation

NeurIPS 2017arXiv

Sequential Modeling Enables Scalable Learning for Large Vision Models

Compositional Chain-of-Thought Prompting for Large Multimodal Models

Navigation World Models

Self-correcting LLM-controlled Diffusion Models

LLM-grounded Video Diffusion Models

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

When Do We Not Need Larger Vision Models?

Describing Differences in Image Sets with Natural Language

Describe Anything: Detailed Localized Image and Video Captioning

VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation

Pre-training Auto-regressive Robotic Models with 4D Representations

PAIR Diffusion: A Comprehensive Multimodal Object-Level Image Editor

VisionArena: 230k Real World User-VLM Conversations with Preference Labels

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

NeurIPS 2025arXiv

Recursive Visual Programming

Vision-Language Models Create Cross-Modal Task Representations

Dual-Process Image Generation

LISAt: Language-Instructed Segmentation Assistant for Satellite Imagery

Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features

Compact Bilinear Pooling

Learning With Side Information Through Modality Hallucination

Context Encoders: Feature Learning by Inpainting

Natural Language Object Retrieval

Modeling Relationships in Referential Expressions With Compositional Modular Networks

End-To-End Learning of Driving Models From Large-Scale Video Datasets

Learning Features by Watching Objects Move

Captioning Images With Diverse Objects

Learning Detection With Diverse Proposals

Adversarial Discriminative Domain Adaptation

Deep Layer Aggregation

Learning to Segment Every Thing

Fooling Vision and Language Models Despite Localization and Attention Mechanism

Multi-Content GAN for Few-Shot Font Style Transfer

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence

TAFE-Net: Task-Aware Feature Embeddings for Low Shot Learning

Hierarchical Discrete Distribution Decomposition for Match Density Estimation

Adversarial Inference for Multi-Sentence Video Description

Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders

BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning

Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks

Advisable Learning for Self-Driving Vehicles by Internalizing Observation-to-Action Rules

Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

Learning Saliency Propagation for Semi-Supervised Instance Segmentation

Quasi-Dense Similarity Learning for Multiple Object Tracking

Prototypical Cross-Domain Self-Supervised Learning for Few-Shot Unsupervised Domain Adaptation

Body2Hands: Learning To Infer 3D Hands From Conversational Gesture Body Dynamics

Learning Invariant Representations and Risks for Semi-Supervised Domain Adaptation

SelfAugment: Automatic Augmentation Policies for Self-Supervised Learning

DETReg: Unsupervised Pretraining With Region Priors for Object Detection

Contrastive Test-Time Adaptation

A ConvNet for the 2020s

Object-Region Video Transformers

Learning To Listen: Modeling Non-Deterministic Dyadic Facial Motion

On Guiding Visual Attention With Language Specification

Back to the Source: Diffusion-Driven Adaptation To Test-Time Corruption

Top-Down Visual Attention From Analysis by Synthesis

Constrained Convolutional Neural Networks for Weakly Supervised Segmentation

Spatial Semantic Regularisation for Large Scale Object Detection

Learning The Structure of Deep Convolutional Networks

Simultaneous Deep Transfer Across Domains and Tasks

Sequence to Sequence - Video to Text

Learning to Reason: End-To-End Module Networks for Visual Question Answering

Generalized Orderless Pooling Performs Implicit Salient Matching

Localizing Moments in Video With Natural Language

Robust Change Captioning

Joint Monocular 3D Vehicle Detection and Tracking

Variational Adversarial Active Learning

Semi-Supervised Domain Adaptation via Minimax Entropy

Few-Shot Object Detection via Feature Reweighting

Disentangling Propagation and Generation for Video Prediction

Language-Conditioned Graph Networks for Relational Reasoning

Predicting With Confidence on Unseen Distributions

Temporal Action Detection With Multi-Level Supervision

Robust Object Detection via Instance-Level Temporal Cycle Confusion

Meta-Baseline: Exploring Simple Meta-Learning for Few-Shot Learning

Region Similarity Representation Learning

Tune It the Right Way: Unsupervised Validation of Domain Adaptation via Soft Neighborhood Density

Rethinking Preventing Class-Collapsing in Metric Learning With Margin-Based Losses

Can Language Models Learn to Listen?

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning

Hierarchical Style-based Networks for Motion Synthesis

Adversarial Continual Learning

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation

Identity-Aware Multi-Sentence Video Description

Learning Canonical Representations for Scene Graph to Image Generation

Weakly-Supervised Action Localization with Expectation-Maximization Multi-Instance Learning

Studying Bias in GANs through the Lens of Race

Learning to Detect Every Thing in an Open World

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly

Stochastic positional embeddings improve masked image modeling

Scaling Vision Pre-Training to 4K Resolution

Visual Lexicon: Rich Image Features in Language Space

Pose Priors from Language Models

AutoPresent: Designing Structured Visuals from Scratch

St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World

Discovering Divergent Representations between Text-to-Image Models

InstanceDiffusion: Instance-level Control for Image Generation

See Say and Segment: Teaching LMMs to Overcome False Premises

Unsupervised Universal Image Segmentation

Readout Guidance: Learning Control from Diffusion Features

Hyperbolic Active Learning for Semantic Segmentation under Domain Shift

xT: Nested Tokenization for Larger Context in Large Images

Position: Near to Mid-term Risks and Opportunities of Open-Source Generative AI

Deformable Part Models are Convolutional Neural Networks

Long-Term Recurrent Convolutional Networks for Visual Recognition and Description

Detector Discovery in the Wild: Joint Multiple Instance and Representation Learning

Fully Convolutional Networks for Semantic Segmentation

Deep Compositional Captioning: Describing Novel Object Categories Without Paired Training Data

Neural Module Networks

Speaker-Follower Models for Vision-and-Language Navigation

Compositional Plan Vectors

Learning to Control Self-Assembling Morphologies: A Study of Generalization via Modularity

Fighting Copycat Agents in Behavioral Cloning from Observation Histories

Auxiliary Task Reweighting for Minimum-data Learning

Teachable Reinforcement Learning via Advice Distillation

CLIP-It! Language-Guided Video Summarization

Early Convolutions Help Transformers See Better

K-LITE: Learning Transferable Visual Models with External Knowledge

Visual Prompting via Image Inpainting

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

Hierarchical Open-vocabulary Universal Image Segmentation

Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence

Large Language Models are Visual Reasoning Coordinators

Diversify Your Vision Datasets with Automatic Diffusion-based Augmentation

Curiosity-driven Exploration by Self-supervised Prediction

CyCADA: Cycle-Consistent Adversarial Domain Adaptation