Xingyi Zhou

16

Papers

27

Total Citations

Papers (16)

Distilling Vision-Language Models on Millions of Videos

Dense Video Object Captioning from Disjoint Supervision

Pixel-Aligned Language Model

Bottom-Up Object Detection by Grouping Extreme and Center Points

Center-Based 3D Object Detection and Tracking

Global Tracking Transformers

Simple Multi-Dataset Detection

How Can Objects Help Action Recognition?

Towards 3D Human Pose Estimation in the Wild: A Weakly-Supervised Approach

Tracking Objects as Points

Detecting Twenty-Thousand Classes Using Image-Level Supervision

Visual Lexicon: Rich Image Features in Language Space

Streaming Dense Video Captioning

Multimodal Virtual Point 3D Detection

Does Visual Pretraining Help End-to-End Reasoning?

DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model