Shengpeng Ji

6

Papers

209

Total Citations

Papers (6)

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Mega-TTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

SpatialCLIP: Learning 3D-aware Image Representations from Spatially Discriminative Language

Open-set Cross Modal Generalization via Multimodal Unified Representation

Speech Watermarking with Discrete Intermediate Representations