Hang Hua

6

Papers

122

Total Citations

Papers (6)

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

FineMatch: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction

MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness