Xiaojun Chang

42

Papers

130

Total Citations

Papers (42)

2382 SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-Form Layout-to-Image Generation

MLP Can Be A Good Transformer Learner

Dense Audio-Visual Event Localization Under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

SWAP-NAS: Sample-Wise Activation Patterns for Ultra-fast NAS

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation

HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation

Towards Efficient General Feature Prediction in Masked Skeleton Modeling

Overcoming Multi-Model Forgetting in One-Shot NAS With Diversity Maximization

Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks

Vision-Dialog Navigation by Exploring Cross-Modal Memory

Dynamic Slimmable Network

SOON: Scenario Oriented Object Navigation With Graph-Based Exploration

Cross-Modal Clinical Graph Transformer for Ophthalmic Report Generation

BaLeNAS: Differentiable Architecture Search via the Bayesian Learning Rule

Knowledge Distillation via the Target-Aware Transformer

Beyond Fixation: Dynamic Window Visual Transformer

Dual-AI: Dual-Path Actor Interaction Learning for Group Activity Recognition

Automated Progressive Learning for Efficient Training of Vision Transformers

Self-Supervised Global-Local Structure Modeling for Point Cloud Domain Adaptation With Reliable Voted Pseudo Labels

Dynamic Graph Enhanced Contrastive Learning for Chest X-Ray Report Generation

Complex Event Detection by Identifying Reliable Shots From Untrimmed Videos

BossNAS: Exploring Hybrid CNN-Transformers With Block-Wisely Self-Supervised Neural Architecture Search

Exploring Inter-Channel Correlation for Diversity-Preserved Knowledge Distillation

FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level Gradient Calibration

HTML: Hybrid Temporal-scale Multimodal Learning Framework for Referring Video Object Segmentation

Mining Inter-Video Proposal Relations for Video Object Detection

An Efficient Spatio-Temporal Pyramid Transformer for Action Detection

Vision-Language Navigation With Random Environmental Mixup

Towards Open-Vocabulary Audio-Visual Event Localization

ProAgent: Building Proactive Cooperative Agents with Large Language Models

Video Recognition in Portrait Mode

They Are Not Equally Reliable: Semantic Event Search Using Differentiated Concept Classifiers

Reinforcement Cutting-Agent Learning for Video Object Segmentation

ZSTAD: Zero-Shot Temporal Activity Detection

Block-Wisely Supervised Neural Architecture Search With Knowledge Distillation

Unity Style Transfer for Person Re-Identification

Differentiable Neural Architecture Search in Equivalent Space with Exploration Enhancement

Hierarchical Neural Architecture Search for Deep Stereo Matching

Mask Propagation for Efficient Video Semantic Segmentation

Complex Event Detection using Semantic Saliency and Nearly-Isotonic SVM