Jun Huang

7

Papers

28

Total Citations

Papers (7)

M2Doc: A Multi-Modal Fusion Approach for Document Layout Analysis

DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding

Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis

M2SD:Multiple Mixing Self-Distillation for Few-Shot Class-Incremental Learning

Fingerprinting Denoising Diffusion Probabilistic Models

Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing