Junjie Fei

5

Papers

8

Total Citations

Papers (5)

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

Kestrel: 3D Multimodal LLM for Part-Aware Grounded Description

Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents

WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

Transferable Decoding with Visual Entities for Zero-Shot Image Captioning