🧬Vision Recognition

Instance Segmentation

Segmenting individual object instances

100 papers2,083 total citations

Compare with other topics

Feb '24 — Jan '26278 papers

Top Conferences

CVPR: 50 AAAI: 21 ECCV: 14 ICCV: 9 ICLR: 4 ICML: 1

Top Papers

#1

Putting the Object Back into Video Object Segmentation

Ho Kei Cheng, Seoung Wug Oh, Brian Price et al.

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

Mingjin Zhang, Yuchun Wang, Jie Guo et al.

ECCV 2024arXiv:2407.07520

infrared small target detectionsegment anything modelthermal image segmentationperona-malik diffusion+4

110

citations

#3

SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation

Wenxi Yue, Jing Zhang, Kun Hu et al.

AAAI 2024arXiv:2308.08746

surgical instrument segmentationclass prompt encodercontrastive prototype learningfoundation model adaptation+4

110

citations

#4

OMG-Seg: Is One Model Good Enough For All Segmentation?

Xiangtai Li, Haobo Yuan, Wei Li et al.

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation

Sihan liu, Yiwei Ma, Xiaoqing Zhang et al.

SAI3D: Segment Any Instance in 3D Scenes

Yingda Yin, Yuzheng Liu, Yang Xiao et al.

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

Yichi Zhang, Ziqiao Ma, Xiaofeng Gao et al.

Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

Shuting He, Henghui Ding

pix2gestalt: Amodal Segmentation by Synthesizing Wholes

Ege Ozguroglu, Ruoshi Liu, Dídac Surís et al.

VLCounter: Text-Aware Visual Representation for Zero-Shot Object Counting

Seunggu Kang, WonJun Moon, Euiyeon Kim et al.

AAAI 2024arXiv:2312.16580

zero-shot object countingsemantic-patch embeddingsvisual-language representationsemantic-conditioned prompt tuning+3

54

citations

#11

Matching Anything by Segmenting Anything

Siyuan Li, Lei Ke, Martin Danelljan et al.

Point Segment and Count: A Generalized Framework for Object Counting

Zhizhong Huang, Mingliang Dai, Yi Zhang et al.

UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes

David Rozenberszki, Or Litany, Angela Dai

Few Shot Part Segmentation Reveals Compositional Logic for Industrial Anomaly Detection

Soopil Kim, Sion An, Philip Chikontwe et al.

AAAI 2024arXiv:2312.13783

few-shot segmentationlogical anomaly detectionpart segmentationindustrial anomaly detection+4

38

citations

#15

TinySAM: Pushing the Envelope for Efficient Segment Anything Model

Han Shu, Wenshuo Li, Yehui Tang et al.

RobustSAM: Segment Anything Robustly on Degraded Images

Wei-Ting Chen, Yu Jiet Vong, Sy-Yen Kuo et al.

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation

Yuanhong Chen, Yuyuan Liu, Hu Wang et al.

CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for Interactive Image Segmentation

Shoukun Sun, Min Xian, Fei Xu et al.

AAAI 2024arXiv:2303.05620

interactive image segmentationclick-based segmentationcascade-forward refinementiterative click loss+4

32

citations

#19

Skeleton Recall Loss for Connectivity Conserving and Resource Efficient Segmentation of Thin Tubular Structures

Yannick Kirchhoff, Maximilian Rokuss, Saikat Roy et al.

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation

Chanyoung Kim, Woojung Han, Dayun Ju et al.

Universal Segmentation at Arbitrary Granularity with Language Instruction

Yong Liu, Cairong Zhang, Yitong Wang et al.

RUN: Reversible Unfolding Network for Concealed Object Segmentation

Chunming He, Rihan Zhang, Fengyang Xiao et al.

Single Domain Generalization for Crowd Counting

Zhuoxuan Peng, S.-H. Gary Chan

SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures

Hui Liu, Chen Jia, Fan Shi et al.

CVPR 2025arXiv:2503.01113

crack segmentationvision mambastate space modelsstructural health monitoring+4

24

citations

#25

Your ViT is Secretly an Image Segmentation Model

Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans et al.

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Yaoting Wang, Peiwen Sun, Dongzhan Zhou et al.

COCONut: Modernizing COCO Segmentation

Xueqing Deng, Qihang Yu, Peng Wang et al.

Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach

Mir Rayat Imtiaz Hossain, Mennatullah Siam, Leonid Sigal et al.

Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

Jiaqi Huang, Zunnan Xu, Ting Liu et al.

The Devil is in Temporal Token: High Quality Video Reasoning Segmentation

Sitong Gong, Yunzhi Zhuge, Lu Zhang et al.

Improving Video Segmentation via Dynamic Anchor Queries

Yikang Zhou, Tao Zhang, Xiangtai Li et al.

FreePoint: Unsupervised Point Cloud Instance Segmentation

Zhikai Zhang, Jian Ding, Li Jiang et al.

RMem: Restricted Memory Banks Improve Video Object Segmentation

Junbao Zhou, Ziqi Pang, Yu-Xiong Wang

MESA: Matching Everything by Segmenting Anything

Yesheng Zhang, Xu Zhao

MaGGIe: Masked Guided Gradual Human Instance Matting

Chuong Huynh, Seoung Wug Oh, Abhinav Shrivastava et al.

MeshSegmenter: Zero-Shot Mesh Segmentation via Texture Synthesis

ziming zhong, Yanyu Xu, Jing Li et al.

ILIAS: Instance-Level Image retrieval At Scale

Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko et al.

Explore In-Context Segmentation via Latent Diffusion Models

Chaoyang Wang, Xiangtai Li, Henghui Ding et al.

Online Reasoning Video Segmentation with Just-in-Time Digital Twins

Yiqing Shen, Bohan Liu, Chenjia Li et al.

Spike2Former: Efficient Spiking Transformer for High-performance Image Segmentation

Zhenxin Lei, Man Yao, Jiakui Hu et al.

SRFormer: Text Detection Transformer with Incorporated Segmentation and Regression

Qingwen Bu, Sungrae Park, Minsoo Khang et al.

AAAI 2024arXiv:2308.10531

text detectionsegmentation-based methodsregression-based methodsdetr-based model+3

12

citations

#42

Prototype-Based Image Prompting for Weakly Supervised Histopathological Image Segmentation

Qingchen Tang, Lei Fan, Maurice Pagnucco et al.

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

Anindya Mondal, Sauradip Nag, Xiatian Zhu et al.

BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion

Zhaochen Liu, Zhixuan Li, Tingting Jiang

AAAI 2024arXiv:2401.01642

amodal segmentationbox-level supervisiondirected expansionoccluded objects+3

11

citations

#45

Stable Segment Anything Model

Qi Fan, Xin Tao, Lei Ke et al.

Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation

Shuangrui Ding, Rui Qian, Haohang Xu et al.

ECCV 2024arXiv:2311.17893

self-supervised learningvideo object segmentationdino-pretrained transformersspatio-temporal correspondence+3

11

citations

#47

Flattening the Parent Bias: Hierarchical Semantic Segmentation in the Poincaré Ball

Simon Weber, Barış Zöngür, Nikita Araslanov et al.

SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning

Zhewei Dai, Shilei Zeng, Haotian Liu et al.

Semantic and Sequential Alignment for Referring Video Object Segmentation

Feiyu Pan, Hao Fang, Fangkai Li et al.

Audio-Visual Instance Segmentation

Ruohao Guo, Xianghua Ying, Yaru Chen et al.

MobileInst: Video Instance Segmentation on the Mobile

Renhong Zhang, Tianheng Cheng, Shusheng Yang et al.

AAAI 2024arXiv:2303.17594

video instance segmentationmobile vision transformerquery-based instance decodermask kernel generation+4

10

citations

#52

Towards a Comprehensive, Efficient and Promptable Anatomic Structure Segmentation Model Using 3D Whole-Body CT Scans

Heng Guo, Jianfeng Zhang, Jiaxing Huang et al.

Placing Objects in Context via Inpainting for Out-of-distribution Segmentation

Pau de Jorge Aranda, Riccardo Volpi, Puneet Dokania et al.

ContextSeg: Sketch Semantic Segmentation by Querying the Context with Attention

Jiawei Wang, Changjian Li

RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything

Shilin Xu, Haobo Yuan, Qingyu Shi et al.

ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation

Shiqi Huang, Shuting He, Bihan Wen

Fusing Personal and Environmental Cues for Identification and Segmentation of First-Person Camera Wearers in Third-Person Views

Ziwei Zhao, Yuchen Wang, Chuhua Wang

GLASS: Guided Latent Slot Diffusion for Object-Centric Learning

Krishnakant Singh, Simone Schaub-Meyer, Stefan Roth

CVPR 2025arXiv:2407.17929

object-centric learningslot attention modelslatent slot diffusionobject discovery+3

9

citations

#59

SAM2Object: Consolidating View Consistency via SAM2 for Zero-Shot 3D Instance Segmentation

Jihuai Zhao, Junbao Zhuo, Jiansheng Chen et al.

Cs2K: Class-specific and Class-shared Knowledge Guidance for Incremental Semantic Segmentation

Wei Cong, Yang Cong, Yuyang Liu et al.

ECCV 2024arXiv:2407.09047

incremental semantic segmentationcatastrophic forgettingprototype-guided learningpseudo labeling+2

9

citations

#61

Un-EVIMO: Unsupervised Event-based Independent Motion Segmentation

Ziyun Wang, Jinyuan Guo, Kostas Daniilidis

Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation

Chanyoung Kim, Dayun Ju, Woojung Han et al.

Robust Zero-Shot Crowd Counting and Localization with Adaptive Resolution SAM

Jia Wan, qiangqiang wu, Wei Lin et al.

Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing

Hongyu Shen, Junfeng Ni, Weishuo Li et al.

SMITE: Segment Me In TimE

Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari et al.

Benchmarking Segmentation Models with Mask-Preserved Attribute Editing

Zijin Yin, Kongming Liang, Bing Li et al.

Extreme Point Supervised Instance Segmentation

Hyeonjun Lee, Sehyun Hwang, Suha Kwak

Knowledge-Enhanced Historical Document Segmentation and Recognition

En-Hao Gao, Yu-Xuan Huang, Wen-Chao Hu et al.

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

Hongwei Niu, Jie Hu, Jianghang Lin et al.

Functionality Understanding and Segmentation in 3D Scenes

Jaime Corsetti, Francesco Giuliari, Alice Fasoli et al.

SPIN: Hierarchical Segmentation with Subpart Granularity in Natural Images

josh myers-dean, Jarek T Reynolds, Brian Price et al.

WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images

Yansong Guo, Jie Hu, Yansong Qu et al.

AoP-SAM: Automation of Prompts for Efficient Segmentation

Yi Chen, Muyoung Son, Chuanbo Hua et al.

Unsegment Anything by Simulating Deformation

Jiahao Lu, Xingyi Yang, Xinchao Wang

Efficient Connectivity-Preserving Instance Segmentation with Supervoxel-Based Loss Function

Anna Grim, Jayaram Chandrashekar, Uygar Sümbül

Hyperspherical Classification with Dynamic Label-to-Prototype Assignment

Mohammad Saadabadi Saadabadi, Ali Dabouei, Sahar Rahimi Malakshan et al.

EchoONE: Segmenting Multiple Echocardiography Planes in One Model

Jiongtong Hu, Wei Zhuo, Jun Cheng et al.

CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation

Reza Abbasi, Ali Nazari, Aminreza Sefid et al.

Seg2Reg: Differentiable 2D Segmentation to 1D Regression Rendering for 360 Room Layout Reconstruction

Cheng Sun, Wei-En Tai, Yu-Lin Shih et al.

CoMBO: Conflict Mitigation via Branched Optimization for Class Incremental Segmentation

Kai Fang, Anqi Zhang, Guangyu Gao et al.

HyperSeg: Hybrid Segmentation Assistant with Fine-grained Visual Perceiver

Cong Wei, Haoxian Tan, Yujie Zhong et al.

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Suho Park, SuBeen Lee, Hyun Seok Seong et al.

Training-Free Dataset Pruning for Instance Segmentation

Yalun Dai, Lingao Xiao, Ivor Tsang et al.

iSegMan: Interactive Segment-and-Manipulate 3D Gaussians

Yian Zhao, Wanshi Xu, Ruochong Zheng et al.

Reasoning to Attend: Try to Understand How <SEG> Token Works

Rui Qian, Xin Yin, Dejing Dou

CAVIS: Context-Aware Video Instance Segmentation

Seunghun Lee, Jiwan Seo, Kiljoon Han et al.

ClusteringSDF: Self-Organized Neural Implicit Surfaces for 3D Decomposition

Tianhao Wu, Chuanxia Zheng, Qianyi Wu et al.

ECCV 2024arXiv:2403.14619

neural implicit surfaces3d decompositionsignal distance functionvolume rendering+4

4

citations

#88

Details Matter for Indoor Open-vocabulary 3D Instance Segmentation

Sanghun Jung, Jingjing Zheng, Ke Zhang et al.

RAGNet: Large-scale Reasoning-based Affordance Segmentation Benchmark towards General Grasping

Dongming Wu, Yanping Fu, Saike Huang et al.

SOS: Segment Object System for Open-World Instance Segmentation With Object Priors

Christian Wilms, Tim Rolff, Maris N Hillemann et al.

ECCV 2024arXiv:2409.14627

open-world instance segmentationfoundation model promptingself-supervised vision transformerspseudo annotation generation+2

3

citations

#91

UNICL-SAM: Uncertainty-Driven In-Context Segmentation with Part Prototype Discovery

Dianmo Sheng, Dongdong Chen, Zhentao Tan et al.

3D Dental Model Segmentation with Geometrical Boundary Preserving

Shufan Xi, Zexian Liu, Junlin Chang et al.

v-CLR: View-Consistent Learning for Open-World Instance Segmentation

Chang-Bin Zhang, Jinhong Ni, Yujie Zhong et al.

CVPR 2025arXiv:2504.01383

open-world instance segmentationappearance-invariant representationcross-view consistencyobject proposal generation+2

2

citations

#94

Object-level Correlation for Few-Shot Segmentation

chunlin wen, Yu Zhang, Jie Fan et al.

ICCV 2025arXiv:2509.07917

few-shot segmentationsemantic segmentationobject-level correlationsupport target object+3

2

citations

#95

DCA: Dividing and Conquering Amnesia in Incremental Object Detection

Aoting Zhang, Dongbao Yang, Chang Liu et al.

RESAnything: Attribute Prompting for Arbitrary Referring Segmentation

Ruiqi Wang, Hao Zhang

NeurIPS 2025arXiv:2505.02867

referring expression segmentationopen-vocabulary segmentationzero-shot learningattribute prompting+4

2

citations

#97

Segment This Thing: Foveated Tokenization for Efficient Point-Prompted Segmentation

Tanner Schmidt, Richard Newcombe

GTMS: A Gradient-driven Tree-guided Mask-free Referring Image Segmentation Method

Haoxin Lyu, Tianxiong Zhong, Sanyuan Zhao

ECCV 2024

referring image segmentationgradient-driven segmentationtree filter guidancemask-free supervision+3

2

citations

#99

Generalized Class Discovery in Instance Segmentation

Cuong Manh Hoang, Yeejin Lee, Byeongkeun Kang

COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation

Sanghyun Jo, Seo Lee, Seungwoo Lee et al.

ICCV 2025arXiv:2503.11439

cell instance segmentationunsupervised semantic segmentationoptimal transportconfidence score guidance+4

2

citations

Instance Segmentation

Top Conferences

Related Topics (Vision Recognition)

Top Papers

Putting the Object Back into Video Object Segmentation

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation

OMG-Seg: Is One Model Good Enough For All Segmentation?

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation

SAI3D: Segment Any Instance in 3D Scenes

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

pix2gestalt: Amodal Segmentation by Synthesizing Wholes

VLCounter: Text-Aware Visual Representation for Zero-Shot Object Counting

Matching Anything by Segmenting Anything

Point Segment and Count: A Generalized Framework for Object Counting

UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes

Few Shot Part Segmentation Reveals Compositional Logic for Industrial Anomaly Detection

TinySAM: Pushing the Envelope for Efficient Segment Anything Model

RobustSAM: Segment Anything Robustly on Degraded Images

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation

CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for Interactive Image Segmentation

Skeleton Recall Loss for Connectivity Conserving and Resource Efficient Segmentation of Thin Tubular Structures

EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation

Universal Segmentation at Arbitrary Granularity with Language Instruction

RUN: Reversible Unfolding Network for Concealed Object Segmentation

Single Domain Generalization for Crowd Counting

SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures

Your ViT is Secretly an Image Segmentation Model

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

COCONut: Modernizing COCO Segmentation

Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach

Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

The Devil is in Temporal Token: High Quality Video Reasoning Segmentation

Improving Video Segmentation via Dynamic Anchor Queries

FreePoint: Unsupervised Point Cloud Instance Segmentation

RMem: Restricted Memory Banks Improve Video Object Segmentation

MESA: Matching Everything by Segmenting Anything

MaGGIe: Masked Guided Gradual Human Instance Matting

MeshSegmenter: Zero-Shot Mesh Segmentation via Texture Synthesis

ILIAS: Instance-Level Image retrieval At Scale

Explore In-Context Segmentation via Latent Diffusion Models

Online Reasoning Video Segmentation with Just-in-Time Digital Twins

Spike2Former: Efficient Spiking Transformer for High-performance Image Segmentation

SRFormer: Text Detection Transformer with Incorporated Segmentation and Regression

Prototype-Based Image Prompting for Weakly Supervised Histopathological Image Segmentation

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion

Stable Segment Anything Model

Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation

Flattening the Parent Bias: Hierarchical Semantic Segmentation in the Poincaré Ball

SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning

Semantic and Sequential Alignment for Referring Video Object Segmentation

Audio-Visual Instance Segmentation

MobileInst: Video Instance Segmentation on the Mobile

Towards a Comprehensive, Efficient and Promptable Anatomic Structure Segmentation Model Using 3D Whole-Body CT Scans

Placing Objects in Context via Inpainting for Out-of-distribution Segmentation

ContextSeg: Sketch Semantic Segmentation by Querying the Context with Attention

RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything

ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation

Fusing Personal and Environmental Cues for Identification and Segmentation of First-Person Camera Wearers in Third-Person Views

GLASS: Guided Latent Slot Diffusion for Object-Centric Learning

SAM2Object: Consolidating View Consistency via SAM2 for Zero-Shot 3D Instance Segmentation

Cs2K: Class-specific and Class-shared Knowledge Guidance for Incremental Semantic Segmentation

Un-EVIMO: Unsupervised Event-based Independent Motion Segmentation

Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation

Robust Zero-Shot Crowd Counting and Localization with Adaptive Resolution SAM

Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing

SMITE: Segment Me In TimE

Benchmarking Segmentation Models with Mask-Preserved Attribute Editing

Extreme Point Supervised Instance Segmentation

Knowledge-Enhanced Historical Document Segmentation and Recognition

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

Functionality Understanding and Segmentation in 3D Scenes

SPIN: Hierarchical Segmentation with Subpart Granularity in Natural Images

WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images

AoP-SAM: Automation of Prompts for Efficient Segmentation

Unsegment Anything by Simulating Deformation

Efficient Connectivity-Preserving Instance Segmentation with Supervoxel-Based Loss Function

Hyperspherical Classification with Dynamic Label-to-Prototype Assignment