Hanwang Zhang

28

Papers

254

Total Citations

Papers (28)

Towards Semantic Equivalence of Tokenization in Multimodal LLM

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior

Doubly Abductive Counterfactual Inference for Text-based Image Editing

Diffusion Time-step Curriculum for One Image to 3D Generation

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

Dual-Perspective Knowledge Enrichment for Semi-supervised 3D Object Detection

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Dynamic Multimodal Prototype Learning in Vision-Language Models

Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models

Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning

Discriminative Probing and Tuning for Text-to-Image Generation

Distributionally Generative Augmentation for Fair Facial Attribute Classification

DisCo: Disentangled Control for Realistic Human Dance Generation

Few-shot Learner Parameterization by Diffusion Time-steps

Classes Are Not Equal: An Empirical Study on Image Recognition Fairness

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

Non-confusing Generation of Customized Concepts in Diffusion Models

MGNet: Learning Correspondences via Multiple Graphs

Auto-Encoding Morph-Tokens for Multimodal LLM

Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization