Enxin Song

4

Papers

602

Total Citations

Papers (4)

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Bringing RNNs Back to Efficient Open-Ended Video Understanding