Zhiliang Peng

6

Papers

1,032

Total Citations

Papers (6)

Grounding Multimodal Large Language Models to the World

Image as a Foreign Language: BEiT Pretraining for Vision and Vision-Language Tasks

Generic-to-Specific Distillation of Masked Autoencoders

Conformer: Local Features Coupling Global Representations for Visual Recognition

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization

Integrally Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection