Chen Chen

113

Papers

835

Total Citations

Papers (113)

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models

Detecting, Explaining, and Mitigating Memorization in Diffusion Models

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

SEPT: Towards Efficient Scene Representation Learning for Motion Prediction

Towards Surveillance Video-and-Language Understanding: New Dataset Baselines and Challenges

BAMM: Bidirectional Autoregressive Motion Model

Large Language Models are Efficient Learners of Noise-Robust Speech Recognition

It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition

GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling

Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning

GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models

GCNext: Towards the Unity of Graph Convolutions for Human Motion Prediction

Adaptive FSS: A Novel Few-Shot Segmentation Framework via Prototype Enhancement

STIV: Scalable Text and Image Conditioned Video Generation

FedMef: Towards Memory-efficient Federated Dynamic Pruning

A Simple Background Augmentation Method for Object Detection with Diffusion Model

MaskControl: Spatio-Temporal Control for Masked Motion Synthesis

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models

Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

Revisiting Graph Contrastive Learning on Anomaly Detection: A Structural Imbalance Perspective

SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality

Exploit Gradient Skewness to Circumvent Byzantine Defenses for Federated Learning

SemStereo: Semantic-Constrained Stereo Matching Network for Remote Sensing

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World

BrainMAP: Learning Multiple Activation Pathways in Brain Networks

Fusion Meets Diverse Conditions: A High-diversity Benchmark and Baseline for UAV-based Multimodal Object Detection with Condition Cues

Out-of-Distribution Generalization on Graphs via Progressive Inference

Real-World Anomaly Detection in Surveillance Videos

Boosting Local Shape Matching for Dense 3D Face Correspondence

Attention Mechanism Exploits Temporal Contexts: Real-Time 3D Human Pose Reconstruction

Multi-Scale Progressive Fusion Network for Single Image Deraining

Learning Normal Dynamics in Videos With Meta Prototype Network

VIGOR: Cross-View Image Geo-Localization Beyond One-to-One Retrieval

TransGeo: Transformer Is All You Need for Cross-View Image Geo-Localization

SPAct: Self-Supervised Privacy Preservation for Action Recognition

Local Learning Matters: Rethinking Data Heterogeneity in Federated Learning

PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose Estimation

FeatER: An Efficient Network for Human Reconstruction via Feature Map-Based TransformER

TopNet: Transformer-Based Object Placement Network for Image Compositing

MSINet: Twins Contrastive Search of Multi-Scale Interaction for Object ReID

Dynamic Graph Learning With Content-Guided Spatial-Frequency Relation Reasoning for Deepfake Detection

TimeBalance: Temporally-Invariant and Temporally-Distinctive Video Representations for Semi-Supervised Action Recognition

Private Image Generation With Dual-Purpose Auxiliary Classifier

R2Former: Unified Retrieval and Reranking Transformer for Place Recognition

POTTER: Pooling Attention Transformer for Efficient Human Mesh Recovery

Robust Image Segmentation Using Contour-Guided Color Palettes

Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

Seeing Motion in the Dark

3D Human Pose Estimation With Spatial and Temporal Transformers

Pseudo-label Alignment for Semi-supervised Instance Segmentation

FedPerfix: Towards Partial Model Personalization of Vision Transformers in Federated Learning

PGFed: Personalize Each Client's Global Objective for Federated Learning

AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

A Large-scale Study of Spatiotemporal Representation Learning with a New Benchmark on Action Recognition

When Do Curricula Work in Federated Learning?

RenderIH: A Large-Scale Synthetic Dataset for 3D Interacting Hand Pose Estimation

Source-free Domain Adaptive Human Pose Estimation

Towards Geospatial Foundation Models via Continual Pretraining

Reconciling Object-Level and Global-Level Objectives for Long-Tail Detection

Multi-view Self-supervised Disentanglement for General Image Denoising

MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution

Self-supervision with Superpixels: Training Few-shot Medical Image Segmentation without Annotation

Unstructured Feature Decoupling for Vehicle Re-identification

Med-DANet: Dynamic Architecture Network for Efficient Medical Volumetric Segmentation

GALA: Toward Geometry-and-Lighting-Aware Object Search for Compositing

GAMa: Cross-view Video Geo-localization

TARGET: Federated Class-Continual Learning via Exemplar-Free Distillation

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

UCM-VeID V2: A Richer Dataset and A Pre-training Method for UAV Cross-Modality Vehicle Re-Identification

Argus: A Compact and Versatile Foundation Model for Vision

Frequency-Semantic Enhanced Variational Autoencoder for Zero-Shot Skeleton-based Action Recognition

X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation

MixA: A Mixed Attention approach with Stable Lightweight Linear Attention to enhance Efficiency of Vision Transformers at the Edge

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing

TARFVAE: Efficient One-Step Generative Time Series Forecasting via TARFLOW based VAE

SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation

Dive into Aerial Remote Sensing Underwater Depth Estimation with Hyperspectral Imagery

GenHMR: Generative Human Mesh Recovery

From Coarse to Fine: A Matching and Alignment Framework for Unsupervised Cross-View Geo-Localization

ST-FiT: Inductive Spatial-Temporal Forecasting with Limited Training Data

Virtual Nodes Can Help: Tackling Distribution Shifts in Federated Graph Learning

Certified Causal Defense with Generalizable Robustness

Towards Improved Proxy-Based Deep Metric Learning via Data-Augmented Domain Adaptation

Decouple Content and Motion for Conditional Image-to-Video Generation

Weakly Misalignment-free Adaptive Feature Alignment for UAVs-based Multimodal Object Detection

Multi-View Attentive Contextualization for Multi-View 3D Object Detection

MMM: Generative Masked Motion Model

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

Towards Memorization-Free Diffusion Models

A Dual-Augmentor Framework for Domain Generalization in 3D Human Pose Estimation

How to Trace Latent Generative Model Generated Images without Artificial Watermark?

COALA: A Practical and Vision-Centric Federated Learning Platform

Deep Sparse Representation for Robust Image Registration

Binary Coding for Partial Action Analysis With Limited Observation Ratios

Cross-View Image Matching for Geo-Localization in Urban Environments

Semantic Image Inpainting With Deep Generative Models

Learning to See in the Dark

GradAug: A New Regularization Method for Deep Neural Networks

CalFAT: Calibrated Federated Adversarial Training with Label Skewness

Nonnegative Tensor Completion via Integer Optimization

Plan To Predict: Learning an Uncertainty-Foreseeing Model For Model-Based Reinforcement Learning

DENSE: Data-Free One-Shot Federated Learning

Graph Few-shot Learning with Task-specific Structures

Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks

Is Heterogeneity Notorious? Taming Heterogeneity to Handle Test-Time Shift in Federated Learning

A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation

Supported Value Regularization for Offline Reinforcement Learning

Where Did I Come From? Origin Attribution of AI-Generated Images

Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning