Jiannan Wu

7

Papers

2,210

Total Citations

Papers (7)

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Language As Queries for Referring Video Object Segmentation

Universal Instance Perception As Object Discovery and Retrieval

Watch Only Once: An End-to-End Video Action Detection Framework

Segment Every Reference Object in Spatial and Temporal Spaces

Exploring Transformers for Open-world Instance Segmentation

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks