Sangho Lee

9

Papers

136

Total Citations

Papers (9)

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

One Diffusion to Generate Them All

Finding NeMo: Negative-mined Mosaic Augmentation for Referring Image Segmentation

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action

A Memory Network Approach for Story-Based Temporal Summarization of 360° Videos

A Read-Write Memory Network for Movie Story Understanding

ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning

ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams

MAMS: Model-Agnostic Module Selection Framework for Video Captioning