Di Hu

9

Papers

119

Total Citations

Papers (9)

Enhancing Multimodal Cooperation via Sample-level Modality Valuation

Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance

Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

MokA: Multimodal Low-Rank Adaptation for MLLMs