Tanmay Gupta

12

Papers

148

Total Citations

Papers (12)

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World

Completing 3D Object Shape From One Depth Image

Visual Semantic Role Labeling for Video Understanding

Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture

Visual Programming: Compositional Visual Reasoning Without Training

Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks

ViCo: Word Embeddings From Visual Co-Occurrences

No-Frills Human-Object Interaction Detection: Factorization, Layout Encodings, and Training Techniques

Contrastive Learning for Weakly Supervised Phrase Grounding

Webly Supervised Concept Expansion for General Purpose Vision Models

OBJECT 3DIT: Language-guided 3D-aware Image Editing