Shijie Geng

6

Papers

8

Total Citations

Papers (6)

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens

Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning

COMPOSER: Compositional Reasoning of Group Activity in Videos with Keypoint-Only Modality

Frozen CLIP Models Are Efficient Video Learners