Xiaodan Liang

128

Papers

608

Total Citations

Papers (128)

Matching-CNN Meets KNN: Quasi-Parametric Human Parsing

Tree-Structured Reinforcement Learning for Sequential Object Localization

NeurIPS 2016arXiv

Structured Generative Adversarial Networks

NeurIPS 2017arXiv

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Making Large Language Models Better Planners with Reasoning-Decision Alignment

WISA: World simulator assistant for physics-aware text-to-video generation

MLP Can Be A Good Transformer Learner

AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera Joint Synthesis

FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

RoboTron-Drive: All-in-One Large Multimodal Model for Autonomous Driving

PTUS: Photo-Realistic Talking Upper-Body Synthesis via 3D-Aware Motion Decomposition

S2-Track: A Simple yet Strong Approach for End-to-End 3D Multi-Object Tracking

Monocular 3D Hand Mesh Recovery via Dual Noise Estimation

Deep Variation-Structured Reinforcement Learning for Visual Relationship and Attribute Detection

Look Into Person: Self-Supervised Structure-Sensitive Learning and a New Benchmark for Human Parsing

Interpretable Structure-Evolving LSTM

Object Region Mining With Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach

Dynamic-Structured Semantic Propagation Network

Visual Question Reasoning on General Dependency Tree

Reinforcement Cutting-Agent Learning for Video Object Segmentation

Blending-Target Domain Adaptation by Adversarial Meta-Adaptation Networks

Layout-Graph Reasoning for Fashion Landmark Detection

Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection

Graphonomy: Universal Human Parsing via Graph Transfer Learning

Learning Personalized Modular Network Guided by Structured Knowledge

Spatial-Aware Graph Relation Network for Large-Scale Object Detection

Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Block-Wisely Supervised Neural Architecture Search With Knowledge Distillation

Fashion Editing With Adversarial Parsing Learning

Bidirectional Graph Reasoning Network for Panoptic Segmentation

Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks

SP-NAS: Serial-to-Parallel Backbone Search for Object Detection

Vision-Dialog Navigation by Exploring Cross-Modal Memory

TransNAS-Bench-101: Improving Transferability and Generalizability of Cross-Task Neural Architecture Search

Dynamic Slimmable Network

SOON: Scenario Oriented Object Navigation With Graph-Based Exploration

Continual Object Detection via Prototypical Task Correlation Guided Gating Mechanism

Cross-Modal Clinical Graph Transformer for Ophthalmic Report Generation

Arch-Graph: Acyclic Architecture Relation Predictor for Task-Transferable Neural Architecture Search

Dressing in the Wild by Watching Dance Videos

Knowledge Distillation via the Target-Aware Transformer

Beyond Fixation: Dynamic Window Visual Transformer

ADAPT: Vision-Language Navigation With Modality-Aligned Action Prompts

Automated Progressive Learning for Efficient Training of Vision Transformers

M5Product: Self-Harmonized Contrastive Learning for E-Commercial Multi-Modal Pretraining

BodyGAN: General-Purpose Controllable Neural Human Body Generation

Dynamic Graph Enhanced Contrastive Learning for Chest X-Ray Report Generation

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-Training via Word-Region Alignment

Learning To Segment Every Referring Object Point by Point

Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving

GP-VTON: Towards General Purpose Virtual Try-On via Collaborative Local-Flow Global-Parsing Learning

CLIP2: Contrastive Language-Image-Point Pretraining From Real-World Point Cloud Data

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining

Towards Computational Baby Learning: A Weakly-Supervised Approach for Object Detection

Human Parsing With Contextualized Convolutional Neural Network

Dual Motion GAN for Future-Flow Embedded Video Prediction

Temporal Dynamic Graph LSTM for Action-Driven Video Object Detection

Recurrent Topic-Transition GAN for Visual Paragraph Generation

Nonparametric Variational Auto-Encoders for Hierarchical Representation Learning

FW-GAN: Flow-Navigated Warping GAN for Video Virtual Try-On

Auto-FPN: Automatic Network Architecture Adaptation for Object Detection Beyond Classification

Towards Multi-Pose Guided Virtual Try-On Network

Meta R-CNN: Towards General Solver for Instance-Level Low-Shot Learning

Pi-NAS: Improving Neural Architecture Search by Reducing Supernet Training Consistency Shift

M3D-VTON: A Monocular-to-3D Virtual Try-On Network

UltraPose: Synthesizing Dense Pose With 1 Billion Points by Human-Body Decoupling 3D Model

Voxel Transformer for 3D Object Detection

Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining

Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

Vision-Language Navigation With Random Environmental Mixup

Linguistically Routing Capsule Network for Out-of-Distribution Visual Question Answering

BossNAS: Exploring Hybrid CNN-Transformers With Block-Wisely Self-Supervised Neural Architecture Search

NASOA: Towards Faster Task-Oriented Online Fine-Tuning With a Zoo of Models

Exploring Geometry-Aware Contrast and Clustering Harmonization for Self-Supervised 3D Object Detection

Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object Detection

Exploring Inter-Channel Correlation for Diversity-Preserved Knowledge Distillation

Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos

CTP:Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability

GrowCLIP: Data-Aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-Training

FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level Gradient Calibration

DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment

LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts

Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images

CurveLane-NAS: Unifying Lane-Sensitive Architecture Search and Adaptive Point Blending

CATCH: Context-based Meta Reinforcement Learning for Transferrable Architecture Search

Open-World Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding

SiRi: A Simple Selective Retraining Mechanism for Transformer-Based Visual Grounding

CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving

Perceptual Generative Adversarial Networks for Small Object Detection

RoboPearls: Editable Video Simulation for Robot Manipulation

A₀ : An Affordance-Aware Hierarchical Model for General Robotic Manipulation

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

DreamFit: Garment-Centric Human Generation via a Lightweight Anything-Dressing Encoder

MUSE: Mamba Is Efficient Multi-scale Learner for Text-video Retrieval

BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving

Affordances-Oriented Planning Using Foundation Models for Continuous Vision-Language Navigation

3D Visibility-Aware Generalizable Neural Radiance Fields for Interacting Hands

Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced Hierarchical Diffusion Model

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

Reversible Recursive Instance-Level Object Segmentation

Deep Structured Scene Parsing by Learning With Image Descriptions

Semantic Object Parsing With Local-Global Long Short-Term Memory

Attention-Aware Face Hallucination via Deep Reinforcement Learning

Recurrent 3D Pose Sequence Machines

Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis

Hybrid Knowledge Routed Modules for Large-scale Object Detection

Symbolic Graph Reasoning Meets Convolutions

Deep Generative Models with Learnable Knowledge Constraints

Hybrid Retrieval-Generation Reinforced Agent for Medical Image Report Generation

Heterogeneous Graph Learning for Visual Commonsense Reasoning

AutoSync: Learning to Synchronize for Data-Parallel Distributed Deep Learning

Towards Interpretable Natural Language Understanding with Explanations as Latent Variables

Auto-Panoptic: Cooperative Multi-Component Architecture Search for Panoptic Segmentation

Towards Scalable Unpaired Virtual Try-On via Patch-Routed Spatially-Adaptive GAN

DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection

CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation

Structure-Preserving 3D Garment Modeling with Neural Sewing Machines

Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving

Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark

Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence Learning

RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments

Toward Controlled Generation of Text

Multivariate-Information Adversarial Ensemble for Scalable Joint Distribution Matching