Xihui Liu

27

Papers

1,269

Total Citations

Papers (27)

WorldSimBench: Towards Video Generation Models as World Simulators

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training

GameFactory: Creating New Games with Generative Interactive Videos

GoT: Unleashing Reasoning Capability of MLLM for Visual Generation and Editing

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

MBQ: Modality-Balanced Quantization for Large Vision-Language Models

PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

FiT: Flexible Vision Transformer for Diffusion Model

Parallelized Autoregressive Visual Generation

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation

V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding

DreamCube: RGB-D Panorama Generation via Multi-plane Synchronization

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

Point Transformer V3: Simpler Faster Stronger

HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting

UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation

HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation