Youngjae Yu

21

Papers

10

Total Citations

Papers (21)

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO

VAGUE: Visual Contexts Clarify Ambiguous Expressions

Diffusion-Driven Two-Stage Active Learning for Low-Budget Semantic Segmentation

MASS: Overcoming Language Bias in Image-Text Matching

DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation

Supervising Neural Attention Models for Video Captioning by Human Gaze Data

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering

Transitional Adaptation of Pretrained Models for Visual Storytelling

MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound

Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning

Pano-AVQA: Grounded Audio-Visual Question Answering on 360deg Videos

ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning

CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos

Character Grounding and Re-Identification in Story of Videos and Text Descriptions

A Memory Network Approach for Story-Based Temporal Summarization of 360° Videos

V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models

MERLOT: Multimodal Neural Script Knowledge Models

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

Localized Symbolic Knowledge Distillation for Visual Commonsense Models