Rongjie Huang

7

Papers

159

Total Citations

Papers (7)

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

TechSinger: Technique Controllable Multilingual Singing Voice Synthesis via Flow Matching

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

InstructSpeech: Following Speech Editing Instructions via Large Language Models

UniAudio: Towards Universal Audio Generation with Large Language Models

FreeBind: Free Lunch in Unified Multimodal Space via Knowledge Fusion