Yuxuan Wang

23

Papers

186

Total Citations

Papers (23)

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

NeurIPS 2025arXiv

Language Model Can Listen While Speaking

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

PolyVoice: Language Models for Speech to Speech Translation

Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges

Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

"GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval"

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

VGMamba: Attribute-to-Location Clue Reasoning for Quantity-Agnostic 3D Visual Grounding

FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models

Vision-Language Interactive Relation Mining for Open-Vocabulary Scene Graph Generation

Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

Parallel Beam Search Algorithms for Domain-Independent Dynamic Programming

TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Neural Dubber: Dubbing for Videos According to Scripts

Empowering Convolutional Neural Nets with MetaSin Activation

Efficient Neural Music Generation

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis