Ranjay Krishna

23

Papers

358

Total Citations

Papers (23)

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation

SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World

One Diffusion to Generate Them All

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Iterated Learning Improves Compositionality in Large Vision-Language Models

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model

Convergent Functions, Divergent Forms

NeurIPS 2025arXiv

Holodeck: Language Guided Generation of 3D Embodied AI Environments

Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models

Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos

Offline Training of Language Model Agents with Functions as Learnable Weights

RealEdit: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations

Semantic and Expressive Variations in Image Captions Across Languages

NVILA: Efficient Frontier Visual Language Models

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Synthetic Visual Genome

Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation

PathFinder: A Multi-Modal Multi-Agent System for Medical Diagnostic Decision-Making Applied to Histopathology

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

Contrastive Flow Matching