Xiaojie Jin

9

Papers

40

Total Citations

Papers (9)

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Flash-VStream: Efficient Real-Time Understanding for Long Video Streams

PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling

NeurIPS 2025arXiv

Stitching Segments and Sentences towards Generalization in Video-Text Pre-training

Exploring Domain Incremental Video Highlights Detection with the LiveFood Benchmark

MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval

PixelLM: Pixel Reasoning with Large Multimodal Model

Video Recognition in Portrait Mode

VISTA-LLAMA: Reducing Hallucination in Video Language Models via Equal Distance to Visual Tokens