Fengyun Rao

12

Papers

274

Total Citations

Papers (12)

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling

Spatial-Semantic Collaborative Cropping for User Generated Content

HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization

From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment

Inter-X: Towards Versatile Human-Human Interaction Analysis

ReGenNet: Towards Human Action-Reaction Synthesis

Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity Evaluation

CA-SSL: Class-Agnostic Semi-Supervised Learning for Detection and Segmentation

Number it: Temporal Grounding Videos like Flipping Manga

Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs

HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models