Song Han

13

Papers

952

Total Citations

Papers (13)

VILA: On Pre-training for Visual Language Models

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

WorldModelBench: Judging Video Generation Models As World Models

Condition-Aware Neural Network for Controlled Image Generation

Twilight: Adaptive Attention Sparsity with Hierarchical Top-$p$ Pruning

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space

NVILA: Efficient Frontier Visual Language Models

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

Scaling Vision Pre-Training to 4K Resolution

QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference