Wengang Zhou

57

Papers

58

Total Citations

Papers (57)

Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models

DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models

SmartEraser: Remove Anything from Images using Masked-Region Guidance

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models

Image as a World: Generating Interactive World from Single Image via Panoramic Video Generation

Revisiting Open-Set Panoptic Segmentation

Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution

Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning

Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Picking Deep Filter Responses for Fine-Grained Image Recognition

Multi-Cue Correlation Filters for Robust Visual Tracking

Unsupervised Deep Tracking

Iterative Alignment Network for Continuous Sign Language Recognition

Transformation GAN for Unsupervised Image Synthesis and Representation Learning

Improving Sign Language Translation With Monolingual Data by Sign Back-Translation

Model-Aware Gesture-to-Gesture Translation

ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised Image Segmentation

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

Uformer: A General U-Shaped Transformer for Image Restoration

Contextual Similarity Distillation for Asymmetric Image Retrieval

Domain-Agnostic Prior for Transfer Semantic Segmentation

AnchorFormer: Point Cloud Completion From Discriminative Nodes

Asymmetric Feature Fusion for Image Retrieval

AltFreezing for More General Video Face Forgery Detection

HandNeRF: Neural Radiance Fields for Animatable Interacting Hands

Relation Distillation Networks for Video Object Detection

Joint Inductive and Transductive Learning for Video Object Segmentation

SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language Recognition

Instance-Wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation

Learning Deep Local Features With Multiple Dynamic Attentions for Large-Scale Image Retrieval

TransVG: End-to-End Visual Grounding With Transformers

Sign Language Translation with Iterative Prototype

DIRE for Diffusion-Generated Image Detection

SimFIR: A Simple Framework for Fisheye Image Rectification with Self-supervised Representation Learning

Focus on Your Target: A Dual Teacher-Student Framework for Domain-Adaptive Semantic Segmentation

Masked Motion Predictors are Strong 3D Action Representation Learners

Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection

Wavelet-Based Dual-Branch Network for Image Demoiréing

CMD: Self-Supervised 3D Action Representation Learning with Cross-Modal Mutual Distillation

TAPE: Task-Agnostic Prior Embedding for Image Restoration

CMT: Context-Matching-Guided Transformer for 3D Tracking in Point Clouds

MVP: Multimodality-Guided Visual Pre-training

Geometric Representation Learning for Document Image Rectification

SOM: Semantic Obviousness Metric for Image Quality Assessment

OPTICAL: Leveraging Optimal Transport for Contribution Allocation in Dataset Distillation

Active Perception Meets Rule-Guided RL: A Two-Phase Approach for Precise Object Navigation in Complex Environments

Aligning Global Semantics and Local Textures in Generative Video Enhancement

SUF: Stabilized Unconstrained Fine-Tuning for Offline-to-Online Reinforcement Learning

Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation

Contextual Similarity Aggregation with Self-attention for Visual Re-ranking

LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning

Hand-Object Interaction Image Generation

Multi-Agent First Order Constrained Optimization in Policy Space

CLIP4HOI: Towards Adapting CLIP for Practical Zero-Shot HOI Detection

Hierarchical Multi-Agent Skill Discovery

State Sequences Prediction via Fourier Transform for Representation Learning

DIFFER:Decomposing Individual Reward for Fair Experience Replay in Multi-Agent Reinforcement Learning