Wangmeng Zuo

26

Papers

248

Total Citations

Papers (26)

GLAD: Towards Better Reconstruction with Global and Local Adaptive Diffusion Models for Unsupervised Anomaly Detection

Improving Image Restoration through Removing Degradations in Textual Representations

PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis

MC^2: Multi-concept Guidance for Customized Multi-concept Generation

MV-VTON: Multi-View Virtual Try-On with Diffusion Models

S2Gaussian: Sparse-View Super-Resolution 3D Gaussian Splatting

Self-Supervised Video Desmoking for Laparoscopic Surgery

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields

ACE: Anti-Editing Concept Erasure in Text-to-Image Models

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

Integrating Visual Interpretation and Linguistic Reasoning for Geometric Problem Solving

MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM

NeurIPS 2025arXiv

Triad: Empowering LMM-based Anomaly Detection with Expert-guided Region-of-Interest Tokenizer and Manufacturing Process

DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors

Rethinking Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising

QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation

VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Learning Real-World Image De-weathering with Imperfect Supervision

3752 Decoupled Textual Embeddings for Customized Image Generation

CASP: Consistency-aware Audio-induced Saliency Prediction Model for Omnidirectional Video

Generative Inbetweening through Frame-wise Conditions-Driven Video Generation

DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior

ReMP-AD: Retrieval-enhanced Multi-modal Prompt Fusion for Few-Shot Industrial Visual Anomaly Detection

VQA4CIR: Boosting Composed Image Retrieval with Visual Question Answering