Bohan Zhuang

35

Papers

238

Total Citations

Papers (35)

LongVLM: Efficient Long Video Understanding via Large Language Models

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models

Neighboring Autoregressive Modeling for Efficient Visual Generation

FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion

Efficient Stitchable Task Adaptation

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

Stitched ViTs are Flexible Vision Backbones

Attend in Groups: A Weakly-Supervised Deep Learning Framework for Learning From Web Data

Parallel Attention: A Unified Framework for Visual Object Discovery Through Dialogs and Queries

Towards Effective Low-Bitwidth Convolutional Neural Networks

Structured Binary Neural Networks for Accurate Image Classification and Semantic Segmentation

AQD: Towards Accurate Quantized Object Detection

Automated Progressive Learning for Efficient Training of Vision Transformers

Dynamic Focus-Aware Positional Queries for Semantic Segmentation

Stitchable Neural Networks

Towards Context-Aware Interaction Recognition for Visual Relationship Detection

FATNN: Fast and Accurate Ternary Neural Networks

Scalable Vision Transformers With Hierarchical Pooling

Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning

BiViT: Extremely Compressed Binary Vision Transformers

Generative Low-bitwidth Data Free Quantization

An Efficient Spatio-Temporal Pyramid Transformer for Action Detection

Training Quantized Neural Networks With a Full-Precision Auxiliary Module

ZipVL: Accelerating Vision-Language Models through Dynamic Token Sparsity

Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis

Channel Merging: Preserving Specialization for Merged Experts

ModaVerse: Efficiently Transforming Modalities with LLMs

Fast Training of Triplet-Based Deep Binary Embedding Networks

Sequential Person Recognition in Photo Albums With a Recurrent Network

Discrimination-aware Channel Pruning for Deep Neural Networks

EcoFormer: Energy-Saving Attention with Linear Complexity

Fast Vision Transformers with HiLo Attention

Mask Propagation for Efficient Video Semantic Segmentation

PTQD: Accurate Post-Training Quantization for Diffusion Models

Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction