Xiaoming Wei

15

Papers

53

Total Citations

Papers (15)

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

NeurIPS 2025arXiv

ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting

ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

BEM: Balanced and Entropy-based Mix for Long-Tailed Semi-Supervised Learning

Animating General Image with Large Visual Motion Model

Rethinking BiSeNet for Real-Time Semantic Segmentation

Embedded Discriminative Attention Mechanism for Weakly Supervised Semantic Segmentation

Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation

Bridging Search Region Interaction With Template for RGB-T Tracking

Elastic Aggregation for Federated Optimization

Masked Auto-Encoders Meet Generative Adversarial Networks and Beyond

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding

Adaptive Spatial-BCE Loss for Weakly Supervised Semantic Segmentation

Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation

Real3D the Curious Case of Neural Scene Degeneration