Alireza Fathi

6

Papers

45

Total Citations

Papers (6)

Language-Guided Image Tokenization for Generation

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames

NeurIPS 2025arXiv

FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

A Generative Approach for Wikipedia-Scale Visual Entity Recognition

Visual Lexicon: Rich Image Features in Language Space

SceneCraft: An LLM Agent for Synthesizing 3D Scenes as Blender Code