Xuxin Cheng

16

Papers

113

Total Citations

Papers (16)

PolyVoice: Language Models for Speech to Speech Translation

DisPose: Disentangling Pose Guidance for Controllable Human Image Animation

Exploiting Auxiliary Caption for Video Grounding

Retrieval is Accurate Generation

Uncertainty-aware sign language video retrieval with probability distribution modeling

KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval

Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning

UniCoTT: A Unified Framework for Structural Chain-of-Thought Distillation

CountLLM: Towards Generalizable Repetitive Action Counting via Large Language Model

EXCGEC: A Benchmark for Edit-Wise Explainable Chinese Grammatical Error Correction

Towards Explainable Joint Models via Information Theory for Multiple Intent Detection and Slot Filling

Aligner$^2$: Enhancing Joint Multiple Intent Detection and Slot Filling via Adjustive and Forced Cross-Task Alignment

Towards Multi-Intent Spoken Language Understanding via Hierarchical Attention and Optimal Transport

Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation

G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and Game Theory

Discover and Align Taxonomic Context Priors for Open-world Semi-Supervised Learning