Hanwang Zhang

88

Papers

254

Total Citations

Papers (88)

Towards Semantic Equivalence of Tokenization in Multimodal LLM

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior

Doubly Abductive Counterfactual Inference for Text-based Image Editing

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training

Diffusion Time-step Curriculum for One Image to 3D Generation

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

Dual-Perspective Knowledge Enrichment for Semi-supervised 3D Object Detection

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Dynamic Multimodal Prototype Learning in Vision-Language Models

Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models

Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning

Visual Translation Embedding Network for Visual Relation Detection

SCA-CNN: Spatial and Channel-Wise Attention in Convolutional Networks for Image Captioning

Zero-Shot Visual Recognition Using Semantics-Preserving Adversarial Embedding Networks

Grounding Referring Expressions in Images by Variational Context

Learning to Compose Dynamic Tree Structures for Visual Contexts

Recursive Visual Attention in Visual Dialog

Explainable and Explicit Visual Reasoning Over Scene Graphs

Auto-Encoding Scene Graphs for Image Captioning

Unbiased Scene Graph Generation From Biased Training

More Grounded Image Captioning by Distilling Image-Text Matching Model

Learning Filter Pruning Criteria for Deep Convolutional Neural Networks Acceleration

Counterfactual Samples Synthesizing for Robust Visual Question Answering

Visual Commonsense R-CNN

Learning to Segment the Tail

Two Causal Principles for Improving Visual Dialog

Iterative Context-Aware Graph Inference for Visual Dialog

Counterfactual Zero-Shot and Open-Set Visual Recognition

Distilling Causal Effect of Data in Class-Incremental Learning

Counterfactual VQA: A Cause-Effect Look at Language Bias

The Blessings of Unlabeled Background in Untrimmed Videos

Causal Attention for Vision-Language Tasks

Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation

Bootstrap Your Own Prior: Towards Distribution-Agnostic Novel Class Discovery

Semantic Scene Completion With Cleaner Self

Unbiased Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

Learning Image and User Features for Recommendation in Social Networks

Making History Matter: History-Advantage Sequence Training for Visual Dialog

Learning to Collocate Neural Modules for Image Captioning

Counterfactual Critic Multi-Agent Training for Scene Graph Generation

Learning to Assemble Neural Module Tree Networks for Visual Grounding

Transporting Causal Mechanisms for Unsupervised Domain Adaptation

Self-Regulation for Semantic Segmentation

Causal Attention for Unbiased Visual Recognition

Auto-Parsing Network for Image Captioning and Visual Question Answering

Equivariant Similarity for Vision-Language Foundation Models

Invariant Training 2D-3D Joint Hard Samples for Few-Shot Point Cloud Recognition

Mitigating and Evaluating Static Bias of Action Representations in the Background and the Foreground

Invariant Feature Regularization for Fair Face Recognition

Learning Trajectory-Word Alignments for Video-Language Tasks

Random Boxes Are Open-world Object Detectors

Prompt-aligned Gradient for Prompt Tuning

Feature Pyramid Transformer

Equivariance and Invariance Inductive Bias for Learning from Insufficient Data

Invariant Feature Learning for Generalized Long-Tailed Classification

Class Is Invariant to Context and Vice Versa: On Learning Invariance for Out-of-Distribution Generalization

Identifying Hard Noise in Long-Tailed Sample Distribution

PPR-FCN: Weakly Supervised Visual Relation Detection via Parallel Pairwise R-FCN

CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

MGNet: Learning Correspondences via Multiple Graphs

Discriminative Probing and Tuning for Text-to-Image Generation

Distributionally Generative Augmentation for Fair Facial Attribute Classification

DisCo: Disentangled Control for Realistic Human Dance Generation

Few-shot Learner Parameterization by Diffusion Time-steps

Classes Are Not Equal: An Empirical Study on Image Recognition Fairness

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

Non-confusing Generation of Customized Concepts in Diffusion Models

Auto-Encoding Morph-Tokens for Multimodal LLM

Online Collaborative Learning for Open-Vocabulary Visual Classifiers

Low-shot Learning via Covariance-Preserving Adversarial Augmentation Networks

Causal Intervention for Weakly-Supervised Semantic Segmentation

Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect

Interventional Few-Shot Learning

How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness?

Introspective Distillation for Robust Question Answering

Self-Supervised Learning Disentangled Group Representation as Feature

Respecting Transfer Gap in Knowledge Distillation

Make the U in UDA Matter: Invariant Consistency Learning for Unsupervised Domain Adaptation

Tuning Multi-mode Token-level Prompt Alignment across Modalities

Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models

Imagine That! Abstract-to-Intricate Text-to-Image Synthesis with Scene Graph Hallucination Diffusion