Dong Xu

9

Papers

26

Total Citations

Papers (9)

A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization Inversion for Zero-Shot Video Editing

CAD-Coder: Text-to-CAD Generation with Chain-of-Thought and Geometric Reward

TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine

NeurIPS 2025arXiv

Data-Free Generalized Zero-Shot Learning

UFDA: Universal Federated Domain Adaptation with Practical Assumptions

SVGDreamer: Text Guided SVG Generation with Diffusion Model

Multi-Modality Affinity Inference for Weakly Supervised 3D Semantic Segmentation

On-Device Diffusion Transformer Policy for Efficient Robot Manipulation

Empowering LLMs to Understand and Generate Complex Vector Graphics