Xiaoshuai Sun

34

Papers

182

Total Citations

Papers (34)

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation

Towards General Visual-Linguistic Face Forgery Detection

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models

Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model

StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings

NeurIPS 2025arXiv

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation

DIFNet: Boosting Visual Information Flow for Image Captioning

Active Teacher for Semi-Supervised Object Detection

RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension

Clover: Towards a Unified Video-Language Alignment and Fusion Model

RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension

Pix2Vox: Context-Aware 3D Reconstruction From Single and Multi-View Images

TRAR: Routing the Attention Spans in Transformer for Visual Question Answering

X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance

An Information Theoretic Approach for Attention-Driven Face Forgery Detection

PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

SeqTR: A Simple Yet Universal Network for Visual Grounding

RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words

ACL: Activating Capability of Linear Attention for Image Restoration

X-RefSeg3D: Enhancing Referring 3D Instance Segmentation via Structured Cross-Modal Graph Neural Networks

X-Oscar: A Progressive Framework for High-quality Text-guided 3D Animatable Avatar Generation

Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models

SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization

GroupCap: Group-Based Image Captioning With Structured Relevance and Diversity Constraints

Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

Information Competing Process for Learning Diversified Representations

Variational Structured Semantic Inference for Diverse Image Captioning

Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models