Shanghang Zhang

62

Papers

423

Total Citations

Papers (62)

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction

Efficient Deweahter Mixture-of-Experts with Uncertainty-Aware Feature-Wise Linear Modulation

FM-OV3D: Foundation Model-Based Cross-Modal Knowledge Blending for Open-Vocabulary 3D Detection

Cloud-Device Collaborative Learning for Multimodal Large Language Models

Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation

PINNsAgent: Automated PDE Surrogation with Large Language Models

SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents

Subgraph Aggregation for Out-of-Distribution Generalization on Graphs

Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

4D Visual Pre-training for Robot Learning

Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image Compression

FreeKD: Knowledge Distillation via Semantic Frequency Prompt

Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting

VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

Compositional Few-Shot Class-Incremental Learning

Understanding Traffic Density From Large-Scale Web Camera Data

Learning to Understand Image Blur

Prototypical Cross-Domain Self-Supervised Learning for Few-Shot Unsupervised Domain Adaptation

Learning Invariant Representations and Risks for Semi-Supervised Domain Adaptation

Delving Deep Into the Generalization of Vision Transformers Under Distribution Shifts

Annealing-Based Label-Transfer Learning for Open World Object Detection

NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers

Improving Generalization of Meta-Learning With Inverted Regularization at Inner-Level

Open-Vocabulary Point-Cloud Object Detection Without 3D Annotation

BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks

Cloud-Device Collaborative Adaptation to Continual Changing Environments in the Real-World

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras

Unsupervised Domain Adaptive 3D Detection With Multi-Level Consistency

Contrastive Multimodal Fusion With TupleInfoNCE

Q-Diffusion: Quantizing Diffusion Models

PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning

QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D Object Detection

TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality Learning

Instance Adaptive Self-Training for Unsupervised Domain Adaptation

MTTrans: Cross-Domain Object Detection with Mean Teacher Transformer

Efficient Meta-Tuning for Content-Aware Neural Video Delivery

MSINet: Twins Contrastive Search of Multi-Scale Interaction for Object ReID

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders

Segment Any Motion in Videos

Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs

EMD: Explicit Motion Modeling for High-Quality Street Gaussian Splatting

Authentic 4D Driving Simulation with a Video Generation Model

DesignEdit: Unify Spatial-Aware Image Editing via Training-free Inpainting with a Multi-Layered Latent Diffusion Framework

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection

Gradient-based Parameter Selection for Efficient Fine-Tuning

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

PromptCoT: Align Prompt Distribution via Adapted Chain-of-Thought

NTO3D: Neural Target Object 3D Reconstruction with Segment Anything

Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation

Adversarial Multiple Source Domain Adaptation

MaCow: Masked Convolutional Generative Flow

Dual Adversarial Semantics-Consistent Network for Generalized Zero-Shot Learning

Differentiable Spike: Rethinking Gradient-Descent for Training Spiking Neural Networks

Outlier Suppression: Pushing the Limit of Low-bit Transformer Language Models

Jump Self-attention: Capturing High-order Statistics in Transformers

Margin-Based Few-Shot Class-Incremental Learning with Class-Level Overfitting Mitigation

PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection