Saining Xie

15

Papers

1,615

Total Citations

Papers (15)

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

V?: Guided Visual Search as a Core Mechanism in Multimodal LLMs

Demystifying CLIP Data

REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers

Scaling Language-Free Visual Representation Learning

MoDE: CLIP Data Experts via Clustering

DiffusionGuard: A Robust Defense Against Malicious Diffusion-based Image Editing

Scaling Inference Time Compute for Diffusion Models

Fast Encoding and Decoding for Implicit Video Representation

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy

Science-T2I: Addressing Scientific Illusions in Image Synthesis

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

Image Sculpting: Precise Object Editing with 3D Geometry Control

Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis