Chenliang Xu

14

Papers

138

Total Citations

Papers (14)

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

One Forward is Enough for Neural Network Training via Likelihood Ratio Method

CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion

Discover and Mitigate Multiple Biased Subgroups in Image Classifiers

MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

Learning to Highlight Audio by Watching Movies

ZeroSep: Separate Anything in Audio with Zero Training

Targeted Forgetting of Image Subgroups in CLIP Models

Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach

GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling

Learning to Transform Dynamically for Better Adversarial Transferability

π-AVAS: Can Physics-Integrated Audio-Visual Modeling Boost Neural Acoustic Synthesis?