Xize Cheng

4

Papers

138

Total Citations

Papers (4)

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

A Wander Through the Multimodal Landscape: Efficient Transfer Learning via Low-rank Sequence Multimodal Adapter

SpatialCLIP: Learning 3D-aware Image Representations from Spatially Discriminative Language