Haodong Duan

14

Papers

67

Total Citations

Papers (14)

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLMs

MM-IFEngine: Towards Multimodal Instruction Following

Visual-RFT: Visual Reinforcement Fine-Tuning

OCSampler: Compressing Videos to One Clip With Single-Step Sampling

Revisiting Skeleton-Based Action Recognition

TRB: A Novel Triplet Representation for Understanding 2D Human Body

SkeleTR: Towards Skeleton-based Action Recognition in the Wild

Omni-sourced Webly-supervised Learning for Video Recognition

TransRank: Self-Supervised Video Representation Learning via Ranking-Based Transformation Recognition

Image Quality Assessment: From Human to Machine Preference

Information Density Principle for MLLM Benchmarks

JourneyDB: A Benchmark for Generative Image Understanding