Shanghang Zhang

31

Papers

423

Total Citations

Papers (31)

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction

Efficient Deweahter Mixture-of-Experts with Uncertainty-Aware Feature-Wise Linear Modulation

FM-OV3D: Foundation Model-Based Cross-Modal Knowledge Blending for Open-Vocabulary 3D Detection

Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

Cloud-Device Collaborative Learning for Multimodal Large Language Models

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation

PINNsAgent: Automated PDE Surrogation with Large Language Models

Subgraph Aggregation for Out-of-Distribution Generalization on Graphs

SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents

Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

4D Visual Pre-training for Robot Learning

Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image Compression

FreeKD: Knowledge Distillation via Semantic Frequency Prompt

Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting

VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

Compositional Few-Shot Class-Incremental Learning

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders

Segment Any Motion in Videos

Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs

EMD: Explicit Motion Modeling for High-Quality Street Gaussian Splatting

Authentic 4D Driving Simulation with a Video Generation Model

DesignEdit: Unify Spatial-Aware Image Editing via Training-free Inpainting with a Multi-Layered Latent Diffusion Framework

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection

Gradient-based Parameter Selection for Efficient Fine-Tuning

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

PromptCoT: Align Prompt Distribution via Adapted Chain-of-Thought

NTO3D: Neural Target Object 3D Reconstruction with Segment Anything

Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation