Pandeng Li

7

Papers

76

Total Citations

Papers (7)

Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval

UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

NeurIPS 2025arXiv

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation

CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

FuseTeacher: Modality-fused Encoders are Strong Vision Supervisors

CLIP-Adapted Region-to-Text Learning for Generative Open-Vocabulary Semantic Segmentation