Song Han

38

Papers

992

Total Citations

Papers (38)

VILA: On Pre-training for Visual Language Models

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

DataMix: Efficient Privacy-Preserving Edge-Cloud Inference

WorldModelBench: Judging Video Generation Models As World Models

Condition-Aware Neural Network for Controlled Image Generation

Twilight: Adaptive Attention Sparsity with Hierarchical Top-$p$ Pruning

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

APQ: Joint Search for Network Architecture, Pruning and Quantization Policy

GAN Compression: Efficient Architectures for Interactive Conditional GANs

Anycost GANs for Interactive Image Synthesis and Editing

Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation

FlatFormer: Flattened Window Attention for Efficient Point Cloud Transformer

TSM: Temporal Shift Module for Efficient Video Understanding

LocTex: Learning Data-Efficient Visual Representations From Localized Textual Supervision

EfficientViT: Lightweight Multi-Scale Attention for High-Resolution Dense Prediction

Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution

Learning both Weights and Connections for Efficient Neural Network

SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer

Scaling Vision Pre-Training to 4K Resolution

NVILA: Efficient Frontier Visual Language Models

DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference

HAQ: Hardware-Aware Automated Quantization With Mixed Precision

Point-Voxel CNN for Efficient 3D Deep Learning

Deep Leakage from Gradients

Park: An Open Platform for Learning-Augmented Computer Systems

Differentiable Augmentation for Data-Efficient GAN Training

TinyTL: Reduce Memory, Not Parameters for Efficient On-Device Learning

MCUNet: Tiny Deep Learning on IoT Devices

Memory-efficient Patch-based Inference for Tiny Deep Learning

Delayed Gradient Averaging: Tolerate the Communication Latency for Federated Learning

On-Device Training Under 256KB Memory

Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models

Path-Level Network Transformation for Efficient Architecture Search

Improved Dynamic Graph Learning through Fault-Tolerant Sparsification