Cong Yao

24

Papers

180

Total Citations

Papers (24)

LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding

FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning

ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

Robust Scene Text Recognition With Automatic Rectification

EAST: An Efficient and Accurate Scene Text Detector

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

On Vocabulary Reliance in Scene Text Recognition

MOST: A Multi-Oriented Scene Text Detector With Localization Refinement

Vision-Language Pre-Training for Boosting Scene Text Detectors

Revisiting Document Image Dewarping by Grid Regularization

GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction

Conditional Text Image Generation With Diffusion Models

Modeling Entities As Semantic Points for Visual Information Extraction in the Wild

Relaxed Multiple-Instance SVM With Application to Object Discovery

Symmetry-Constrained Rectification Network for Scene Text Recognition

LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition

Vision Grid Transformer for Document Layout Analysis

Differentiable Feature Aggregation Search for Knowledge Distillation

Levenshtein OCR

Multi-Granularity Prediction for Scene Text Recognition

OmniParser: A Unified Framework for Text Spotting Key Information Extraction and Table Recognition

Symmetry-Based Text Line Detection in Natural Scenes

Multi-Oriented Text Detection With Fully Convolutional Networks