Shihao Chen

3

Papers

18

Total Citations

Papers (3)

Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition

CSSinger: End-to-End Chunkwise Streaming Singing Voice Synthesis System Based on Conditional Variational Autoencoder