Runhui Huang

6

Papers

100

Total Citations

Papers (6)

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability

GrowCLIP: Data-Aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-Training

Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark