Cong Wei

8

Papers

240

Total Citations

Papers (8)

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models

VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

HyperSeg: Hybrid Segmentation Assistant with Fine-grained Visual Perceiver

Advancing Visual Large Language Model for Multi-granular Versatile Perception

Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI