Kai Han

27

Papers

101

Total Citations

Papers (27)

PromptCCD: Learning Gaussian Mixture Prompt Pool for Continual Category Discovery

AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation

Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts

Mr. DETR: Instructive Multi-Route Training for Detection Transformers

Data-efficient Large Vision Models through Sequential Autoregression

Hyperbolic Category Discovery

Adapt without Forgetting: Distill Proximity from Dual Teachers in Vision-Language Models

SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

Parallel Sequence Modeling via Generalized Spatial Propagation Network

v-CLR: View-Consistent Learning for Open-World Instance Segmentation

VaMP: Variational Multi-Modal Prompt Learning for Vision-Language Models

SEAL: Semantic-Aware Hierarchical Learning for Generalized Category Discovery

LLM Data Selection and Utilization via Dynamic Bi-level Optimization

Rethinking Optimization and Architecture for Tiny Language Models

Detecting Open World Objects via Partial Attribute Assignment

Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping

L-Man: A Large Multi-modal Model Unifying Human-centric Tasks

Deletion-Robust Submodular Maximization with Knapsack Constraints

SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching

IBD-SLAM: Learning Image-Based Depth Fusion for Generalizable SLAM

An Empirical Study of Scaling Law for Scene Text Recognition

DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models

ParameterNet: Parameters Are All You Need for Large-scale Visual Pretraining of Mobile Networks

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer

Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models