Li Zhou

6

Papers

16

Total Citations

Papers (6)

Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model

MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking

INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling

Engage for All: Making Ordinary Image Descriptions Appealing Again!

Learning for Disparity Estimation Through Feature Constancy

Joint Visual Grounding and Tracking With Natural Language Specification