Irfan Essa

7

Papers

827

Total Citations

Papers (7)

Language Model Beats Diffusion - Tokenizer is key to visual generation

Photorealistic Video Generation with Diffusion Models

Calibrated Multi-Preference Optimization for Aligning Diffusion Models

Limitations in Employing Natural Language Supervision for Sensor-Based Human Activity Recognition - And Ways to Overcome Them

Cropper: Vision-Language Model for Image Cropping through In-Context Learning

Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

VideoPoet: A Large Language Model for Zero-Shot Video Generation