Roei Herzig

14

Papers

199

Total Citations

Papers (14)

Compositional Chain-of-Thought Prompting for Large Multimodal Models

Pre-training Auto-regressive Robotic Models with 4D Representations

Recursive Visual Programming

Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features

Unsupervised Universal Image Segmentation

Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks

DETReg: Unsupervised Pretraining With Region Priors for Object Detection

Unsupervised Domain Generalization by Learning a Bridge Across Domains

Object-Region Video Transformers

Teaching Structured Vision & Language Concepts to Vision & Language Models

Learning Canonical Representations for Scene Graph to Image Generation

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

NeurIPS 2022arXiv

FETA: Towards Specializing Foundational Models for Expert Task Applications

NeurIPS 2022arXiv

Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models

NeurIPS 2023arXiv