Saining Xie

38

Papers

1,615

Total Citations

Papers (38)

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

V?: Guided Visual Search as a Core Mechanism in Multimodal LLMs

Demystifying CLIP Data

REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers

Scaling Language-Free Visual Representation Learning

MoDE: CLIP Data Experts via Clustering

DiffusionGuard: A Robust Defense Against Malicious Diffusion-based Image Editing

Scaling Inference Time Compute for Diffusion Models

Fast Encoding and Decoding for Implicit Video Representation

Exploring Data-Efficient 3D Scene Understanding With Contrastive Scene Contexts

Masked Feature Prediction for Self-Supervised Visual Pre-Training

Masked Autoencoders Are Scalable Vision Learners

A ConvNet for the 2020s

ConvNeXt V2: Co-Designing and Scaling ConvNets With Masked Autoencoders

Holistically-Nested Edge Detection

Exploring Randomly Wired Neural Networks for Image Recognition

Order-Aware Generative Modeling Using the 3D-Craft Dataset

On Network Design Spaces for Visual Recognition

Pri3D: Can 3D Priors Help 2D Representation Learning?

An Empirical Study of Training Self-Supervised Vision Transformers

CiT: Curation in Training for Effective Vision-Language Data

Going Denser with Open-Vocabulary Part Segmentation

Scalable Diffusion Models with Transformers

PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding

Are Labels Necessary for Neural Architecture Search?

SLIP: Self-Supervision Meets Language-Image Pre-training

Momentum Contrast for Unsupervised Visual Representation Learning

Science-T2I: Addressing Scientific Illusions in Image Synthesis

Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy

Image Sculpting: Precise Object Editing with 3D Geometry Control

Hyper-Class Augmented and Regularized Deep Learning for Fine-Grained Image Classification

Aggregated Residual Transformations for Deep Neural Networks

Attentional ShapeContextNet for Point Cloud Recognition

FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions

On Interaction Between Augmentations and Corruptions in Natural Corruption Robustness