Xinliang Wang

3

papers

131

total citations

papers (3)

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

LLaVA-SP: Enhancing Visual Representation with Visual Spatial Tokens for MLLMs

Lane Detection Transformer Based on Multi-Frame Horizontal and Vertical Attention and Visual Transformer Module