Roei Herzig

16

Papers

199

Total Citations

Papers (16)

Compositional Chain-of-Thought Prompting for Large Multimodal Models

Pre-training Auto-regressive Robotic Models with 4D Representations

Recursive Visual Programming

Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features

DETReg: Unsupervised Pretraining With Region Priors for Object Detection

Object-Region Video Transformers

Teaching Structured Vision & Language Concepts to Vision & Language Models

Learning Canonical Representations for Scene Graph to Image Generation

Unsupervised Domain Generalization by Learning a Bridge Across Domains

Unsupervised Universal Image Segmentation

Precise Detection in Densely Packed Scenes

Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks

Mapping Images to Scene Graphs with Permutation-Invariant Structured Prediction

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

FETA: Towards Specializing Foundational Models for Expert Task Applications

Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models