Jiedong Zhuang

4

Papers

23

Total Citations

Papers (4)

Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints

FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance

PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination

ST3: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming