Hao Chen

57

Papers

380

Total Citations

1

Affiliations

Affiliations

CMU

Papers (57)

VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis

ImageFolder: Autoregressive Image Generation with Folded Tokens

What Matters When Repurposing Diffusion Models for General Dense Perception Tasks?

SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer

360+x: A Panoptic Multi-modal Scene Understanding Dataset

OSV: One Step is Enough for High-Quality Image to Video Generation

FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior

Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

WeatherGFM: Learning a Weather Generalist Foundation Model via In-context Learning

Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks

DiffCalib: Reformulating Monocular Camera Calibration as Diffusion-Based Dense Incident Map Generation

TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings

FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classification

Fast Encoding and Decoding for Implicit Video Representation

PEACE: Empowering Geologic Map Holistic Understanding with MLLMs

SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset

Improving Multimodal Learning Balance and Sufficiency through Data Remixing

Distilled Prompt Learning for Incomplete Multimodal Survival Prediction

SDP-CROWN: Efficient Bound Propagation for Neural Network Verification with Tightness of Semidefinite Programming

VA-MoE: Variables-Adaptive Mixture of Experts for Incremental Weather Forecasting

Point Cloud Upsampling Using Conditional Diffusion Module with Adaptive Noise Suppression

Rethinking the Bias of Foundation Model under Long-tailed Distribution

Evaluating Program Semantics Reasoning with Type Inference in System $F$

Revisiting Open-Set Panoptic Segmentation

A General Framework for Learning from Weak Supervision

Completing Visual Objects via Bridging Generation and Segmentation

Floating Anchor Diffusion Model for Multi-motif Scaffolding

Post-hoc Part-Prototype Networks

CompeteAI: Understanding the Competition Dynamics of Large Language Model-based Agents

Generative Active Learning for Long-tailed Instance Segmentation

EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual Insights

Towards a Self-contained Data-driven Global Weather Forecasting Framework

Dual-Interrelated Diffusion Model for Few-Shot Anomaly Image Generation

Monocular and Generalizable Gaussian Talking Head Animation

Satellite Observations Guided Diffusion Model for Accurate Meteorological States at Arbitrary Resolution

POMATO: Marrying Pointmap Matching with Temporal Motions for Dynamic 3D Reconstruction

Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data

FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization

UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI

Separation for Better Integration: Disentangling Edge and Motion in Event-based Deblurring

Conditional Visual Autoregressive Modeling for Pathological Image Restoration

SurfaceSplat: Connecting Surface Reconstruction and Gaussian Splatting

Unified Open-World Segmentation with Multi-Modal Prompts

Learning Concept Prerequisite Relation via Global Knowledge Relation Optimization

Know Where You Are From: Event-Based Segmentation via Spatio-Temporal Propagation

MM-Tracker: Motion Mamba for UAV-platform Multiple Object Tracking

ESEG: Event-Based Segmentation Boosted by Explicit Edge-Semantic Guidance

Time Series Supplier Allocation via Deep Black-Litterman Model

Towards Loss-Resilient Image Coding for Unstable Satellite Networks

PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation

Retrieval-Augmented Primitive Representations for Compositional Zero-Shot Learning

A Dynamic GCN with Cross-Representation Distillation for Event-Based Learning

MICA: Towards Explainable Skin Lesion Diagnosis via Multi

DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data

Video Frame Interpolation via Direct Synthesis with the Event-based Reference

FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition