Ranjay Krishna

43

Papers

358

Total Citations

Papers (43)

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation

SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World

One Diffusion to Generate Them All

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Iterated Learning Improves Compositionality in Large Vision-Language Models

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model

Convergent Functions, Divergent Forms

NeurIPS 2025arXiv

Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models

Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos

Offline Training of Language Model Agents with Functions as Learnable Weights

Image Retrieval Using Scene Graphs

A Hierarchical Approach for Generating Descriptive Image Paragraphs

Referring Relationships

Information Maximizing Visual Question Generation

Action Genome: Actions As Compositions of Spatio-Temporal Scene Graphs

AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

Measuring Compositional Consistency for Video Question Answering

CREPE: Can Vision-Language Foundation Models Reason Compositionally?

Dense-Captioning Events in Videos

Scene Graph Prediction With Limited Labels

Agile Modeling: From Concept to Classifier in Minutes

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

RealEdit: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations

Semantic and Expressive Variations in Image Captions Across Languages

NVILA: Efficient Frontier Visual Language Models

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Synthetic Visual Genome

Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation

PathFinder: A Multi-Modal Multi-Agent System for Medical Diagnostic Decision-Making Applied to Histopathology

Contrastive Flow Matching

Holodeck: Language Guided Generation of 3D Embodied AI Environments

HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward

OBJECT 3DIT: Language-guided 3D-aware Image Editing

DataComp: In search of the next generation of multimodal datasets

SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality

Quilt-1M: One Million Image-Text Pairs for Histopathology

Cola: A Benchmark for Compositional Text-to-image Retrieval

Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias