Xiaoyi Bao

7

Papers

78

Total Citations

Papers (7)

Relevant Intrinsic Feature Enhancement Network for Few-Shot Semantic Segmentation

EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Videos Generation

NeurIPS 2025arXiv

UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

NeurIPS 2025arXiv

Aligned Better, Listen Better for Audio-Visual Large Language Models

DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding

DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training