Xinlong Wang

7

Papers

654

Total Citations

Papers (7)

Generative Multimodal Models are In-Context Learners

Uni3D: Exploring Unified 3D Representation at Scale

You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

CapsFusion: Rethinking Image-Text Data at Scale

Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model