Zaid Khan

7

Papers

35

Total Citations

Papers (7)

Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning

Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement

Q: How To Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!

Single-Stream Multi-level Alignment for Vision-Language Pretraining

Exploring Question Decomposition for Zero-Shot VQA