Ron Litman

10

Papers

42

Total Citations

Papers (10)

Question Aware Vision Transformer for Multimodal Reasoning

VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

SCATTER: Selective Context Attentional Scene Text Recognizer

Sequence-to-Sequence Contrastive Learning for Text Recognition

LaTr: Layout-Aware Transformer for Scene-Text VQA

Towards Models that Can See and Read

CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

DocVLM: Make Your VLM an Efficient Reader

TextAdaIN: Paying Attention to Shortcut Learning in Text Recognizers

GRAM: Global Reasoning for Multi-Page VQA