Zheng-Jun Zha

30

Papers

115

Total Citations

Papers (30)

Revisiting Single Image Reflection Removal In the Wild

Improved Video VAE for Latent Video Diffusion Model

QMambaBSR: Burst Image Super-Resolution with Query State Space Model

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling

PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement

EVDM: Event-based Real-world Video Deblurring with Mamba

Decouple to Reconstruct: High Quality UHD Restoration via Active Feature Disentanglement and Reversible Fusion

HERO: Human Reaction Generation from Videos

MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking

EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation

Enhanced Pansharpening via Quaternion Spatial-Spectral Interactions

EventMamba: Enhancing Spatio-Temporal Locality with State Space Models for Event-Based Video Reconstruction

SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation

Boosting Image De-Raining via Central-Surrounding Synergistic Convolution

DCTMamba: Advancing JPEG Image Restoration Through Long-Sequence Modeling and Adaptive Frequency Strategy

HOIMamba: Efficient Mamba-based Disentangled Progressive Learning for HOI Detection

A Lottery Ticket Hypothesis Approach with Sparse Fine-tuning and MAE for Image Forgery Detection and Localization

Fusion-Vital: Video-RF Fusion Transformer for Advanced Remote Physiological Measurement

780 Learning Discriminative Noise Guidance for Image Forgery Detection and Localization

HomoFormer: Homogenized Transformer for Image Shadow Removal

LEMON: Learning 3D Human-Object Interaction Relation from 2D Images

Prompt-Enhanced Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning

CCM: Real-Time Controllable Visual Content Creation Using Text-to-Image Consistency Models

UHD-processer: Unified UHD Image Restoration with Progressive Frequency Learning and Degradation-aware Prompts

Hierarchical Knowledge Prompt Tuning for Multi-task Test-Time Adaptation

WeGen: A Unified Model for Interactive Multimodal Generation as We Chat

GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding

SIGMAN: Scaling 3D Human Gaussian Generation with Millions of Assets