Zhenguo Li

16

Papers

536

Total Citations

Papers (16)

G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning

Accelerating Diffusion Sampling with Optimized Time Steps

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis

DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception

CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs

Implicit Search via Discrete Diffusion: A Study on Chess

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling

Enhancing the Power of OOD Detection via Sample-Aware Model Selection

Adding Additional Control to One-Step Diffusion with Joint Distribution Matching

Masked Diffusion Models as Energy Minimization