Dan Xu

52

Papers

660

Total Citations

Papers (52)

GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting

Learning Deep Structured Multi-Scale Features using Attention-Gated CRFs for Contour Prediction

NeurIPS 2017arXiv

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Interactive3D: Create What You Want by Interactive 3D Generation

CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

From One to More: Contextual Part Latents for 3D Generation

Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation

Efficient Multitask Dense Predictor via Binarization

Vision-aware Multimodal Prompt Tuning for Uploadable Multi-source Few-shot Domain Adaptation

Rep-MTL: Unleashing the Power of Representation-level Task Saliency for Multi-Task Learning

PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation

Every Smile Is Unique: Landmark-Guided Diverse Smile Generation

Group Consistent Similarity Learning via Deep CRF for Person Re-Identification

Multi-Channel Attention Selection GAN With Cascaded Semantic Guidance for Cross-View Image Translation

Dynamic Graph Message Passing Networks

Local Class-Specific and Global Image-Level Generative Adversarial Networks for Semantic-Guided Scene Generation

Learning Parallel Dense Correspondence From Spatio-Temporal Descriptors for Efficient and Robust 4D Reconstruction

Delving Into Localization Errors for Monocular 3D Object Detection

Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation

Depth-Aware Generative Adversarial Network for Talking Head Video Generation

Generalized Binary Search Network for Highly-Efficient Multi-View Stereo

Learning Multi-Modal Class-Specific Tokens for Weakly Supervised Dense Object Localization

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-Training via Word-Region Alignment

Free-viewpoint Human Animation with Pose-correlated Reference Selection

Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry Towards Monocular Deep SLAM

Leveraging Auxiliary Tasks With Affinity Learning for Weakly Supervised Semantic Segmentation

SA-ConvONet: Sign-Agnostic Optimization of Convolutional Occupancy Networks

Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head video Generation

TaskExpert: Dynamically Assembling Multi-Task Representations with Memorial Mixture-of-Experts

Learning Unified Decompositional and Compositional NeRF for Editable Novel View Synthesis

Network Binarization via Contrastive Learning

Lipschitz Continuity Retained Binary Neural Network

Inverted Pyramid Multi-task Transformer for Dense Scene Understanding

Structured Modeling of Joint Deep Feature and Prediction Refinement for Salient Object Detection

GaussHDR: High Dynamic Range Gaussian Splatting via Learning Unified 3D and 2D Local Tone Mapping

Taming Video Diffusion Prior with Scene-Grounding Guidance for 3D Gaussian Splatting from Sparse Inputs

Flow-NeRF: Joint Learning of Geometry, Poses, and Dense Flow within Unified Neural Representations

DiGA3D: Coarse-to-Fine Diffusional Propagation of Geometry and Appearance for Versatile 3D Inpainting

Multi-Attribute Multi-Grained Adaptation of Pre-Trained Language Models for Text Understanding from Bayesian Perspective

Personalized LoRA for Human-Centered Text Understanding

DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data

Implicit Event-RGBD Neural SLAM

UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation

Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

Viraliency: Pooling Local Virality

DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection

CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection