Minghui Fang

5

Papers

135

Total Citations

Papers (5)

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

Open-set Cross Modal Generalization via Multimodal Unified Representation

Zero-resource Hallucination Detection for Text Generation via Graph-based Contextual Knowledge Triples Modeling

Speech Watermarking with Discrete Intermediate Representations