Kevin Qinghong Lin

16

Papers

720

Total Citations

Papers (16)

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

VideoLLM-online: Online Video Large Language Model for Streaming Video

MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation

Learning Video Context as Interleaved Multimodal Sequences

ROICtrl: Boosting Instance Control for Visual Generation

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting

Bootstrapping SparseFormers from Vision Foundation Models

All in One: Exploring Unified Video-Language Pre-Training

Affordance Grounding From Demonstration Video To Target Image

Too Large; Data Reduction for Vision-Language Pre-Training

UniVTG: Towards Unified Video-Language Temporal Grounding

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

Egocentric Video-Language Pretraining

NeurIPS 2022arXiv

Learning Visual Prior via Generative Pre-Training

NeurIPS 2023arXiv