Xiaoshuai Sun

15

Papers

182

Total Citations

Papers (15)

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation

Towards General Visual-Linguistic Face Forgery Detection

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models

Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model

StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings

NeurIPS 2025arXiv

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation

X-RefSeg3D: Enhancing Referring 3D Instance Segmentation via Structured Cross-Modal Graph Neural Networks

ACL: Activating Capability of Linear Attention for Image Restoration

X-Oscar: A Progressive Framework for High-quality Text-guided 3D Animatable Avatar Generation

Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models

SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization