Jun Xiao

37

Papers

133

Total Citations

Papers (37)

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

Let LRMs Break Free from Overthinking via Self-Braking Tuning

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Existence Is Chaos: Enhancing 3D Human Motion Prediction with Uncertainty Consideration

DECap: Towards Generalized Explicit Caption Editing via Diffusion Mechanism

MICAS: Multi-grained In-Context Adaptive Sampling for 3D Point Cloud Processing

The Four Color Theorem for Cell Instance Segmentation

Decoding Correlation-Induced Misalignment in the Stable Diffusion Workflow for Text-to-Image Generation

Counterfactual Samples Synthesizing for Robust Visual Question Answering

End-to-End 3D Point Cloud Instance Segmentation Without Detection

Human-Like Controllable Image Captioning With Verb-Specific Semantic Roles

Classification-Then-Grounding: Reformulating Video Scene Graphs As Temporal Bipartite Graphs

The Devil Is in the Labels: Noisy Label Correction for Robust Scene Graph Generation

VectorFloorSeg: Two-Stream Graph Attention Network for Vectorized Roughcast Floorplan Segmentation

Bit-Shrinking: Limiting Instantaneous Sharpness for Improving Post-Training Quantization

Counterfactual Critic Multi-Agent Training for Scene Graph Generation

Compositional Feature Augmentation for Unbiased Scene Graph Generation

Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation

SSF: Accelerating Training of Spiking Neural Networks with Stabilized Spiking Flow

Rethinking Data Augmentation for Robust Visual Question Answering

Explicit Image Caption Editing

Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility

D^3CTTA: Domain-Dependent Decorrelation for Continual Test-Time Adaption of 3D LiDAR Segmentation

TAGA: Self-supervised Learning for Template-free Animatable Gaussian Articulated Model

Activating Sparse Part Concepts for 3D Class Incremental Learning

Fully Data-Driven Pseudo Label Estimation for Pointly-Supervised Panoptic Segmentation

Towards Progressive Multi-Frequency Representation for Image Warping

Distributionally Generative Augmentation for Fair Facial Attribute Classification

SCA-CNN: Spatial and Channel-Wise Attention in Convolutional Networks for Image Captioning

Zero-Shot Visual Recognition Using Semantics-Preserving Adversarial Embedding Networks

Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction

SAViT: Structure-Aware Vision Transformer Pruning via Collaborative Optimization

Two Heads are Better Than One: A Simple Exploration Framework for Efficient Multi-Agent Reinforcement Learning

Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

Decompose Novel into Known: Part Concept Learning For 3D Novel Class Discovery