Irfan Essa

15

Papers

827

Total Citations

Papers (15)

Language Model Beats Diffusion - Tokenizer is key to visual generation

Photorealistic Video Generation with Diffusion Models

Calibrated Multi-Preference Optimization for Aligning Diffusion Models

Limitations in Employing Natural Language Supervision for Sensor-Based Human Activity Recognition - And Ways to Overcome Them

Cropper: Vision-Language Model for Image Cropping through In-Context Learning

Visual Prompt Tuning for Generative Transfer Learning

MAGVIT: Masked Generative Video Transformer

MaskSketch: Unpaired Structure-Guided Masked Image Generation

Neural Design Network: Graphic Layout Generation with Constraints

BLT: Bidirectional Layout Transformer for Controllable Layout Generation

Improved Masked Image Generation with Token-Critic

Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Embodied Question Answering in Photorealistic Environments With Point Cloud Perception

Audio Visual Scene-Aware Dialog