Rongjie Huang

10

Papers

159

Total Citations

Papers (10)

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

TechSinger: Technique Controllable Multilingual Singing Voice Synthesis via Flow Matching

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

UniAudio: Towards Universal Audio Generation with Large Language Models

InstructSpeech: Following Speech Editing Instructions via Large Language Models

FreeBind: Free Lunch in Unified Multimodal Space via Knowledge Fusion

MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition

M4Singer: A Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus

GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech