Xinlong Wang

23

Papers

654

Total Citations

Papers (23)

Generative Multimodal Models are In-Context Learners

Uni3D: Exploring Unified 3D Representation at Scale

You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

Repulsion Loss: Detecting Pedestrians in a Crowd

Associatively Segmenting Instances and Semantics in Point Clouds

End-to-End Video Instance Segmentation With Transformers

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

BoxInst: High-Performance Instance Segmentation With Box Annotations

FreeSOLO: Learning To Segment Objects Without Annotations

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Images Speak in Images: A Generalist Painter for In-Context Visual Learning

SegGPT: Towards Segmenting Everything in Context

Affective Image Filter: Reflecting Emotions from Text to Images

SOLO: Segmenting Objects by Locations

Instance-Aware Embedding for Point Cloud Instance Segmentation

Poseur: Direct Human Pose Regression with Transformers

FCPose: Fully Convolutional Multi-Person Pose Estimation With Dynamic Instance-Aware Convolutions

Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation

CapsFusion: Rethinking Image-Text Data at Scale

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

SOLOv2: Dynamic and Fast Instance Segmentation

Fine-Grained Visual Prompting