Sheng Jin

27

Papers

358

Total Citations

Papers (27)

Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

CLIM: Contrastive Language-Image Mosaic for Region Representation

F-LMM: Grounding Frozen Large Multimodal Models

AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks

Weakly Supervised Monocular 3D Detection with a Single-View Image

Ultra-High Resolution Segmentation via Boundary-Enhanced Patch-Merging Transformer

NADER: Neural Architecture Design via Multi-Agent Collaboration

UniFS: Universal Few-shot Instance Perception with Point Representations

Whole-Body Human Pose Estimation in the Wild

PoseTrans: A Simple yet Effective Pose Transformation Augmentation for Human Pose Estimation

3D Interacting Hand Pose Estimation by Hand De-Occlusion and Removal

Pose for Everything: Towards Category-Agnostic Pose Estimation

Not All Tokens Are Equal: Human-Centric Visual Analysis via Token Clustering Transformer

Unsupervised Continual Domain Shift Learning with Multi-Prototype Modeling

Multi-Person Articulated Tracking With Spatial and Temporal Embeddings

When Human Pose Estimation Meets Robustness: Adversarial Algorithms and Benchmarks

ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search

Aligning Bag of Regions for Open-Vocabulary Object Detection

TRB: A Novel Triplet Representation for Understanding 2D Human Body

Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images

Domain Generalization via Balancing Training Difficulty and Model Capability

Uncertainty-aware Unsupervised Multi-Object Tracking

Connectionist Temporal Classification with Maximum Entropy Regularization

When Counterpoint Meets Chinese Folk Melodies

Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions