Zhihang Liu

3

Papers

57

Total Citations

Papers (3)

Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

NeurIPS 2025arXiv