Shuailei Ma

7

Papers

118

Total Citations

Papers (7)

Language-Image Pre-training with Long Captions

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

Aligned Better, Listen Better for Audio-Visual Large Language Models

Learning Visual Generative Priors without Text

Chains of Diffusion Models

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training