Ming Dai

4

Papers

16

Total Citations

Papers (4)

Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints

PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

ST3: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming