Han Zhang

46

Papers

1,436

Total Citations

1

Affiliations

Affiliations

Tsinghua University

Papers (46)

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

CPPO: Continual Learning for Reinforcement Learning with Human Feedback

Lipschitz Singularities in Diffusion Models

BatteryML: An Open-source Platform for Machine Learning on Battery Degradation

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

Correcting Large Language Model Behavior via Influence Function

BeyondGender: A Multifaceted Bilingual Dataset for Practical Sexism Detection

CCM: Real-Time Controllable Visual Content Creation Using Text-to-Image Consistency Models

SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-Grained Recognition

Link the Head to the "Beak": Zero Shot Learning From Noisy Text Description at Part Precision

AttnGAN: Fine-Grained Text to Image Generation With Attentional Generative Adversarial Networks

Co-Occurrent Features in Semantic Segmentation

Distilling Effective Supervision From Severe Label Noise

Your Local GAN: Designing Two Dimensional Local Attention Mechanisms for Generative Models

Cross-Modal Contrastive Learning for Text-to-Image Generation

Learning To Prompt for Continual Learning

MAXIM: Multi-Axis MLP for Image Processing

MaskGIT: Masked Generative Image Transformer

Visual Prompt Tuning for Generative Transfer Learning

MAGVIT: Masked Generative Video Transformer

MAGE: MAsked Generative Encoder To Unify Representation Learning and Image Synthesis

Dimensionality-Varying Diffusion Process

Enhanced Training of Query-Based Object Detection via Selective Query Recollection

StackGAN: Text to Photo-Realistic Image Synthesis With Stacked Generative Adversarial Networks

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance Generation

VQ3D: Learning a 3D-Aware Generative Model on ImageNet

"Unitail: Detecting, Reading, and Matching in Retail Scene"

BLT: Bidirectional Layout Transformer for Controllable Layout Generation

MaxViT: Multi-axis Vision Transformer

DualPrompt: Complementary Prompting for Rehearsal-Free Continual Learning

Learning Instance-Specific Adaptation for Cross-Domain Segmentation

Lane Detection Transformer Based on Multi-Frame Horizontal and Vertical Attention and Visual Transformer Module

MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction

Accelerating Diffusion Sampling via Exploiting Local Transition Coherence

Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks

MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

MITracker: Multi-View Integration for Visual Object Tracking

Inheriting Generalized Learngene for Efficient Knowledge Transfer across Multiple Tasks

FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence

Improved Transformer for High-Resolution GANs

GLOBEM Dataset: Multi-Year Datasets for Longitudinal Human Behavior Modeling Generalization

Decision Tree for Locally Private Estimation with Public Data

StoryBench: A Multifaceted Benchmark for Continuous Story Visualization

Diversify Your Vision Datasets with Automatic Diffusion-based Augmentation

Self-Attention Generative Adversarial Networks