Xiaokang Yang

35

Papers

208

Total Citations

Papers (35)

VidToMe: Video Token Merging for Zero-Shot Video Editing

Domain-Controlled Prompt Learning

Domain Prompt Learning with Quaternion Networks

Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction

Multimodal Latent Diffusion Model for Complex Sewing Pattern Generation

Monocular Identity-Conditioned Facial Reflectance Reconstruction

PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing

Partial Label Learning with a Partner

Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning

Disentangled Clothed Avatar Generation with Layered Representation

Tendency-driven Mutual Exclusivity for Weakly Supervised Incremental Semantic Segmentation

AniSDF: Fused-Granularity Neural Surfaces with Anisotropic Encoding for High-Fidelity 3D Reconstruction

Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography

Rethinking Classifier Re-Training in Long-Tailed Recognition: Label Over-Smooth Can Balance

Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video

POMP: Physics-constrainable Motion Generative Model through Phase Manifolds

Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions

HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models

CasCast: Skillful High-resolution Precipitation Nowcasting via Cascaded Modelling

OSDFace: One-Step Diffusion Model for Face Restoration

Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding

Star with Bilinear Mapping

Domain Generalization in CLIP via Learning with Diverse Text Prompts

PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution

Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations

QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation

A Token-level Text Image Foundation Model for Document Understanding

HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance

DAWP: A framework for global observation forecasting via Data Assimilation and Weather Prediction in satellite observation space

FATE: Feature-Adapted Parameter Tuning for Vision-Language Models

SAM-PARSER: Fine-Tuning SAM Efficiently by Parameter Space Reconstruction

LERE: Learning-Based Low-Rank Matrix Recovery with Rank Estimation

Inter-X: Towards Versatile Human-Human Interaction Analysis

ReGenNet: Towards Human Action-Reaction Synthesis

S^3-Face: SSS-Compliant Facial Reflectance Estimation via Diffusion Priors