Zhihong Zhu

7

Papers

125

Total Citations

Papers (7)

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

NeurIPS 2025arXiv

Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation

DisPose: Disentangling Pose Guidance for Controllable Human Image Animation

Exploiting Auxiliary Caption for Video Grounding

VASparse: Towards Efficient Visual Hallucination Mitigation via Visual-Aware Token Sparsification

Aligner$^2$: Enhancing Joint Multiple Intent Detection and Slot Filling via Adjustive and Forced Cross-Task Alignment

Towards Multi-Intent Spoken Language Understanding via Hierarchical Attention and Optimal Transport