Xiu Li

30

Papers

629

Total Citations

Papers (30)

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

Taming Rectified Flow for Inversion and Editing

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

MultiBooth: Towards Generating All Your Concepts in an Image from Text

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

MagicArticulate: Make Your 3D Models Articulation-Ready

SkillMimic: Learning Basketball Interaction Skills from Demonstrations

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning

NeurIPS 2025arXiv

GIVEPose: Gradual Intra-class Variation Elimination for RGB-based Category-Level Object Pose Estimation

ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning

NeurIPS 2025arXiv

InterSyn: Interleaved Learning for Dynamic Motion Synthesis in the Wild

FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation

A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions

REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment

MaTe: Images Are All You Need for Material Transfer via Diffusion Transformer

Hunyuan-Portrait: Implicit Condition Control for Enhanced Portrait Animation

MVPortrait: Text-Guided Motion and Emotion Control for Multi-view Vivid Portrait Animation

Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded Conditional Control

Cross-Modal Match for Language Conditioned 3D Object Grounding

Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection

AToM: Aligning Text-to-Motion Model at Event-Level with GPT-4Vision Reward

PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

SUMO: Search-Based Uncertainty Estimation for Model-Based Offline Reinforcement Learning

Cross-Domain Policy Adaptation by Capturing Representation Mismatch

Exploration and Anti-Exploration with Distributional Random Network Distillation

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model