Yunlong Tang

7

Papers

107

Total Citations

Papers (7)

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion

MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

ZeroSep: Separate Anything in Audio with Zero Training

Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach