Sayan Nag

6

Papers

63

Total Citations

Papers (6)

Jack of All Tasks Master of Many: Designing General-Purpose Coarse-to-Fine Vision-Language Model

AURELIA: Test-time Reasoning Distillation in Audio-Visual LLMs

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

EgoAdapt: Adaptive Multisensory Distillation and Policy Learning for Efficient Egocentric Perception

AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs

MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models