Ming Tang

31

Papers

367

Total Citations

Papers (31)

AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models

Fluctuation-Based Adaptive Structured Pruning for Large Language Models

Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models

MUG: Pseudo Labeling Augmented Audio-Visual Mamba Network for Audio-Visual Video Parsing

FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation

NeurIPS 2025arXiv

Fractional Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing

Self-Supervised Representation Learning from Arbitrary Scenarios

High-Speed Tracking With Multi-Kernel Correlation Filters

Semantic Alignment: Finding Semantically Consistent Ground-Truth for Facial Landmark Detection

Part-Aware Context Network for Human Parsing

Adaptive Class Suppression Loss for Long-Tail Object Detection

Improving Multiple Object Tracking With Single Object Tracking

C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection

UniVIP: A Unified Framework for Self-Supervised Visual Pre-Training

ZBS: Zero-Shot Background Subtraction via Instance-Level Background Modeling and Foreground Selection

Multi-Kernel Correlation Filter for Visual Tracking

Fast-deepKCF Without Boundary Effect

High-Performance Discriminative Tracking With Transformers

Identity-Guided Human Semantic Parsing for Person Re-Identification

Learning Feature Embeddings for Discriminant Model based Tracking

Large Batch Optimization for Object Detection: Training COCO in 12 Minutes

Adaptive Variance Based Label Distribution Learning For Facial Age Estimation

Blended Grammar Network for Human Parsing

Regularizing Vector Embedding in Bottom-Up Human Pose Estimation

PASS: Part-Aware Self-Supervised Pre-training for Person Re-identification

UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

VPR-Cloak: A First Look at Privacy Cloak Against Visual Place Recognition

MST: Masked Self-Supervised Transformer for Visual Representation

Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual Tasks