Xiaohui Shen

8

Papers

143

Total Citations

Papers (8)

MaskBit: Embedding-free Image Generation via Bit Tokens

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

COCONut: Modernizing COCO Segmentation

Randomized Autoregressive Visual Generation

Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval

ViTamin: Designing Scalable Vision Models in the Vision-Language Era

D-Attn: Decomposed Attention for Large Vision-and-Language Model