Xiaoyi Dong

12

Papers

435

Total Citations

Papers (12)

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

Deciphering Cross-Modal Alignment in Large Vision-Language Models via Modality Integration Rate

MM-IFEngine: Towards Multimodal Instruction Following

Visual-RFT: Visual Reinforcement Fine-Tuning

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

X-Prompt: Generalizable Auto-Regressive Visual Learning with In-Context Prompting

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Conical Visual Concentration for Efficient Large Vision-Language Models