Ron Litman

4

Papers

42

Total Citations

Papers (4)

Question Aware Vision Transformer for Multimodal Reasoning

VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

DocVLM: Make Your VLM an Efficient Reader

GRAM: Global Reasoning for Multi-Page VQA