Xiangtai Li

25

Papers

618

Total Citations

Papers (25)

OMG-Seg: Is One Model Good Enough For All Segmentation?

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

Point Cloud Mamba: Point Cloud Learning via State Space Model

Towards Semantic Equivalence of Tokenization in Multimodal LLM

RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning

Towards Language-Driven Video Inpainting via Multimodal Large Language Models

Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

Improving Video Segmentation via Dynamic Anchor Queries

Explore In-Context Segmentation via Latent Diffusion Models

DreamRelation: Bridging Customization and Relation Generation

Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers For Motion Transfer

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

PointDGMamba: Domain Generalization of Point Cloud Classification via Generalized State Space Model

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model

QK-Edit: Revisiting Attention-based Injection in MM-DiT for Image and Video Editing

Referring Image Editing: Object-level Image Editing via Referring Expressions

BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model

Unified Dense Prediction of Video Diffusion

Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language