Ziqi Pang

5

Papers

150

Total Citations

Papers (5)

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

Frozen Transformers in Language Models Are Effective Visual Encoder Layers

GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation

RMem: Restricted Memory Banks Improve Video Object Segmentation

AgMMU: A Comprehensive Agricultural Multimodal Understanding Benchmark