Kevin Qinghong Lin

14

Papers

239

Total Citations

Papers (14)

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

VideoLLM-online: Online Video Large Language Model for Streaming Video

ROICtrl: Boosting Instance Control for Visual Generation

Bootstrapping SparseFormers from Vision Foundation Models

All in One: Exploring Unified Video-Language Pre-Training

Affordance Grounding From Demonstration Video To Target Image

Too Large; Data Reduction for Vision-Language Pre-Training

UniVTG: Towards Unified Video-Language Temporal Grounding

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation

VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting

Egocentric Video-Language Pretraining

Learning Visual Prior via Generative Pre-Training