Reuben Tan

8

Papers

62

Total Citations

Papers (8)

Koala: Key Frame-Conditioned Long Video-LLM

SITE: towards Spatial Intelligence Thorough Evaluation

Language-Guided Audio-Visual Source Separation via Trimodal Consistency

Language Features Matter: Effective Language Representations for Vision-Language Tasks

Learning Similarity Conditions Without Explicit Supervision

NewsStories: Illustrating Articles with Visual Summaries

Magma: A Foundation Model for Multimodal AI Agents

Look at What I’m Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos