Liming Zhao

5

Papers

35

Total Citations

Papers (5)

Improved Video VAE for Latent Video Diffusion Model

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

ContextHOI: Spatial Context Learning for Human-Object Interaction Detection

FuseTeacher: Modality-fused Encoders are Strong Vision Supervisors

Orchestrating the Symphony of Prompt Distribution Learning for Human-Object Interaction Detection