Shaofei Huang

5

Papers

0

Total Citations

Papers (5)

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer

Video2BEV: Transforming Drone Videos to BEVs for Video-based Geo-localization

Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation

Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training