🧬Applications

Medical Imaging

AI for medical image analysis

100 papers3,412 total citations

Compare with other topics

Mar '24 — Feb '26632 papers

Top Conferences

CVPR: 34 ECCV: 30 ICLR: 16 AAAI: 10 NeurIPS: 5 ICML: 3

Top Papers

#1

MedSegDiff-V2: Diffusion-based Medical Image Segmentation with Transformer

Junde Wu, Wei Ji, Huazhu Fu et al.

AAAI 2024arXiv:2301.11798

diffusion probabilistic modelmedical image segmentationvision transformertransformer-based diffusion+4

259

citations

#2

Real-IAD: A Real-World Multi-View Dataset for Benchmarking Versatile Industrial Anomaly Detection

Chengjie Wang, wenbing zhu, Bin-Bin Gao et al.

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

Mingjin Zhang, Yuchun Wang, Jie Guo et al.

ECCV 2024arXiv:2407.07520

infrared small target detectionsegment anything modelthermal image segmentationperona-malik diffusion+4

110

citations

#4

SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation

Wenxi Yue, Jing Zhang, Kun Hu et al.

AAAI 2024arXiv:2308.08746

surgical instrument segmentationclass prompt encodercontrastive prototype learningfoundation model adaptation+4

110

citations

#5

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Yuxin Zuo, Shang Qu, Yifei Li et al.

Rolling-Unet: Revitalizing MLP’s Ability to Efficiently Extract Long-Distance Dependencies for Medical Image Segmentation

Yutong Liu, Haijiang Zhu, Mengting Liu et al.

Decoding Natural Images from EEG for Object Recognition

Yonghao Song, Bingchuan Liu, Xiang Li et al.

Brain decoding: toward real-time reconstruction of visual perception

Yohann Benchetrit, Hubert Banville, Jean-Remi King

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

Chong Mou, Xintao Wang, Jiechong Song et al.

AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error

Jonas Ricker, Denis Lukovnikov, Asja Fischer

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion

yitong jiang, Zhaoyang Zhang, Tianfan Xue et al.

Dynamic Graph Representation with Knowledge-aware Attention for Histopathology Whole Slide Image Analysis

Jiawen Li, Yuxuan Chen, Hongbo Chu et al.

VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis

Linshan Wu, Jia-Xin Zhuang, Hao Chen

MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

Yunfei Xie, Ce Zhou, Lang Gao et al.

ICLR 2025arXiv:2408.02900

multimodal medical datasetautomated annotation pipelineretrieval-augmented generationmedical image captioning+4

70

citations

#15

Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification

Yunlong Zhang, Honglin Li, YUXUAN SUN et al.

ECCV 2024arXiv:2311.07125

multiple instance learningwhole slide image classificationattention mechanismsmultiple branch attention+4

65

citations

#16

Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding

Zhiheng Cheng, Qingyue Wei, Hongru Zhu et al.

MuSc: Zero-Shot Industrial Anomaly Classification and Segmentation with Mutual Scoring of the Unlabeled Images

Xurui Li, Ziming Huang, Feng Xue et al.

GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes

Ibrahim Ethem Hamamci, Sezgin Er, Anjany Sekuboyina et al.

ECCV 2024arXiv:2305.16037

3d medical imagingtext-conditional generationcausal vision transformerdiffusion models+4

52

citations

#19

ReMamber: Referring Image Segmentation with Mamba Twister

Yuhuan Yang, Chaofan Ma, Jiangchao Yao et al.

GPAvatar: Generalizable and Precise Head Avatar from Image(s)

Xuangeng Chu, Yu Li, Ailing Zeng et al.

One-Prompt to Segment All Medical Images

Wu, Min Xu

A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

Zicheng Zhang, Haoning Wu, Chunyi Li et al.

A Diffusion-Based Framework for Multi-Class Anomaly Detection

Haoyang He, Jiangning Zhang, Hongxu Chen et al.

AAAI 2024arXiv:2312.06607

diffusion modelsanomaly detectionmulti-class settingsemantic-guided reconstruction+4

40

citations

#24

ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image

Hallee E. Wong, Marianne Rakic, John Guttag et al.

VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging

Yufan He, Pengfei Guo, Yucheng Tang et al.

Transformer-Based No-Reference Image Quality Assessment via Supervised Contrastive Learning

Jinsong Shi, Pan Gao, Jie Qin

AAAI 2024arXiv:2312.06995

image quality assessmentno-reference iqasupervised contrastive learningtransformer architecture+4

34

citations

#27

NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation

Jingyang Huo, Yikai Wang, Yanwei Fu et al.

ECCV 2024arXiv:2403.18211

fmri-to-image reconstructiondiffusion modelsmulti-individual pretrainingsemantic feature extraction+4

33

citations

#28

Visual Agentic AI for Spatial Reasoning with a Dynamic API

Damiano Marsili, Rohun Agrawal, Yisong Yue et al.

Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

Siwei Wen, junyan ye, Peilin Feng et al.

Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation

Yunhe Gao

Think Twice Before Selection: Federated Evidential Active Learning for Medical Image Analysis with Domain Shifts

Jiayi Chen, Benteng Ma, Hengfei Cui et al.

FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification

Yu Tian, Congcong Wen, Min Shi et al.

ECCV 2024arXiv:2407.08813

algorithmic fairnessdomain adaptationdomain generalizationmedical image segmentation+4

27

citations

#33

Image Compression for Machine and Human Vision With Spatial-Frequency Adaptation

han li, Shaohui Li, Shuangrui Ding et al.

Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding

Zhongyi Shui, Jianpeng Zhang, Weiwei Cao et al.

Automatic Radiology Reports Generation via Memory Alignment Network

Hongyu Shen, Mingtao Pei, Juncai Liu et al.

I-MedSAM: Implicit Medical Image Segmentation with Segment Anything

Xiaobao Wei, Jiajun Cao, Yizhu Jin et al.

ECCV 2024arXiv:2311.17081

medical image segmentationsegment anything modelimplicit neural representationcontinuous representations+3

26

citations

#37

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

Ying Chen, Guoan Wang, Yuanfeng Ji et al.

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

Lijun Li, Zhelun Shi, Xuhao Hu et al.

Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Junlong Cheng, Bin Fu, Jin Ye et al.

CVPR 2025arXiv:2411.12814

interactive image segmentationmedical image segmentationbenchmark datasetvision foundational model+4

25

citations

#40

DGR-MIL: Exploring Diverse Global Representation in Multiple Instance Learning for Whole Slide Image Classification

Wenhui Zhu, Xiwen Chen, Peijie Qiu et al.

ECCV 2024arXiv:2407.03575

multiple instance learningwhole slide image classificationattention mechanismdiversity modeling+3

24

citations

#41

Tyche: Stochastic In-Context Learning for Medical Image Segmentation

Marianne Rakic, Hallee Wong, Jose Javier Gonzalez Ortiz et al.

Supervised Anomaly Detection for Complex Industrial Images

Aimira Baitieva, David Hurych, Victor Besnier et al.

An Intelligent Agentic System for Complex Image Restoration Problems

Kaiwen Zhu, Jinjin Gu, Zhiyuan You et al.

RadGPT: Constructing 3D Image-Text Tumor Datasets

Pedro Bassi, Mehmet Yavuz, Ibrahim Ethem Hamamci et al.

GeoCalib: Learning Single-image Calibration with Geometric Optimization

Alexander Veicht, Paul-Edouard Sarlin, Philipp Lindenberger et al.

Improving Medical Multi-modal Contrastive Learning with Expert Annotations

Yogesh Kumar, Pekka Marttinen

ECCV 2024arXiv:2403.10153

contrastive learningmulti-modal medical imagingmodality gapexpert annotations+4

23

citations

#47

CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology

Yuxuan Sun, Yixuan Si, Chenglu Zhu et al.

CVPR 2025arXiv:2412.12077

computational pathologymultimodal foundation modelwhole slide image analysisvisual question answering+4

22

citations

#48

RadEdit: stress-testing biomedical vision models via diffusion image editing

Fernando Pérez-García, Sam Bond-Taylor, Pedro Sanchez et al.

ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World

Weixiang Yan, Haitian Liu, Tengxiao Wu et al.

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Yuxuan Luo, Zhengkun Rong, Lizhen Wang et al.

Boosting Neural Cognitive Diagnosis with Student’s Affective State Modeling

Shanshan Wang, Zhen Zeng, Xun Yang et al.

Region-Adaptive Transform with Segmentation Prior for Image Compression

Yuxi Liu, Wenhan Yang, Huihui Bai et al.

ECCV 2024arXiv:2403.00628

learned image compressionregion-adaptive transformsegmentation prioradaptive convolutions+3

21

citations

#53

TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data

Siyi Du, Shaoming Zheng, Yinsong Wang et al.

An Incremental Unified Framework for Small Defect Inspection

Jiaqi Tang, Hao Lu, Xiaogang Xu et al.

ECCV 2024arXiv:2312.08917

defect inspectionincremental learningobject-aware self-attentionsemantic compression loss+4

21

citations

#55

Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report Generation

Kang Liu, Zhuoqi Ma, Xiaolu Kang et al.

CVPR 2025arXiv:2502.20056

contrastive learningmulti-view imaginglongitudinal dataradiology report generation+3

20

citations

#56

BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion

Huafeng Li, Dayong Su, Qing Cai et al.

MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models

Mohammad Shahab Sepehri, Zalan Fabian, Maryam Soltanolkotabi et al.

ICLR 2025arXiv:2409.15477

multimodal large language modelsmedical visual question answeringfoundation model reliabilitymedical imaging analysis+3

19

citations

#58

NICP: Neural ICP for 3D Human Registration at Scale

Riccardo Marin, Enric Corona, Gerard Pons-Moll

ECCV 2024arXiv:2312.14024

3d human registrationneural fieldspoint cloud alignmenttemplate registration+4

19

citations

#59

KGARevion: An AI Agent for Knowledge-Intensive Biomedical QA

Xiaorui Su, Yibo Wang, Shanghua Gao et al.

ICLR 2025arXiv:2410.04660

knowledge graph reasoningbiomedical question answeringretrieval-augmented generationknowledge verification+3

19

citations

#60

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Ziyu Liu, Yuhang Zang, Xiaoyi Dong et al.

ICLR 2025arXiv:2410.17637

direct preference optimizationvision-language modelsmulti-image tasksvisual preference alignment+3

19

citations

#61

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

Siyu Zou, Jiji Tang, Yiyi Zhou et al.

AAAI 2024arXiv:2401.07709

diffusion-based image editingattention mechanismtext-to-image diffusionmask generation+3

19

citations

#62

CC-SAM: Enhancing SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation

Shreyank Narayana Gowda, David A Clifton

ECCV 2024

medical image segmentationcross-branch attentionvision transformer encoderconvolutional neural network+4

18

citations

#63

InsMapper: Exploring Inner-instance Information for Vectorized HD Mapping

Zhenhua Xu, Kwan-Yee K. Wong, Hengshuang ZHAO

ECCV 2024arXiv:2308.08543

vectorized hd mappingattention mechanismautonomous drivingpoint set prediction+4

18

citations

#64

PAIR Diffusion: A Comprehensive Multimodal Object-Level Image Editor

Vidit Goel, Elia Peruzzo, Yifan Jiang et al.

InfMAE: A Foundation Model in The Infrared Modality

Fangcen liu, Chenqiang Gao, Yaming Zhang et al.

Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks

Lehan Wang, Haonan Wang, Honglong Yang et al.

ICLR 2025arXiv:2410.18387

multimodal large language modelsmedical vision-language tasksregion-centric learningbilingual medical ai+4

17

citations

#67

GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images

Xiang Lan, Feng Wu, Kai He et al.

CycleINR: Cycle Implicit Neural Representation for Arbitrary-Scale Volumetric Super-Resolution of Medical Data

Wei Fang, Yuxing Tang, Heng Guo et al.

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts

Zewen Chen, Haina Qin, Juan Wang et al.

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

Kangyu Zhu, Peng Xia, Yun Li et al.

Revisiting MAE Pre-training for 3D Medical Image Segmentation

Tassilo Wald, Constantin Ulrich, Stanislav Lukyanenko et al.

CVPR 2025arXiv:2410.23132

self-supervised learning3d medical image segmentationmasked autoencodersbrain mri analysis+2

16

citations

#72

Diversified and Personalized Multi-rater Medical Image Segmentation

Yicheng Wu, Xiangde Luo, Zhe Xu et al.

Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

Bin-Bin Gao

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Zhibing Li, Tong Wu, Jing Tan et al.

Is Artificial Intelligence Generated Image Detection a Solved Problem?

Ziqiang Li, Jiazhen Yan, Ziwen He et al.

NeurIPS 2025arXiv:2505.12335

ai-generated image detectiongenerative model robustnessdeepfake detectionimage forensics+3

15

citations

#76

Self-Supervised Video Desmoking for Laparoscopic Surgery

Renlong Wu, Zhilu Zhang, Shuohao Zhang et al.

ILIAS: Instance-Level Image retrieval At Scale

Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko et al.

Progressive Divide-and-Conquer via Subsampling Decomposition for Accelerated MRI

Chong Wang, Lanqing Guo, Yufei Wang et al.

CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset

Xiao Wang, Fuling Wang, Yuehang Li et al.

Versatile Medical Image Segmentation Learned from Multi-Source Datasets via Model Self-Disambiguation

Xiaoyang Chen, Hao Zheng, Yuemeng LI et al.

CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI

Siyuan Cheng, Lingjuan Lyu, Zhenting Wang et al.

CVPR 2025arXiv:2503.18286

synthetic image detectiongenerative ai detectionsemantic feature enhancementartifact feature analysis+4

14

citations

#82

The Effect of Intrinsic Dataset Properties on Generalization: Unraveling Learning Differences Between Natural and Medical Images

Nicholas Konz, Maciej Mazurowski

Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models

Weiwei Cao, Jianpeng Zhang, Yingda Xia et al.

Pippo: High-Resolution Multi-View Humans from a Single Image

Yash Kant, Ethan Weber, Jin Kyu Kim et al.

CVPR 2025arXiv:2502.07785

multi-view generationdiffusion transformersingle image reconstruction3d consistent generation+4

14

citations

#85

CAMIL: Context-Aware Multiple Instance Learning for Cancer Detection and Subtyping in Whole Slide Images

olga fourkioti, Matt De Vries, Chris Bakal

HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance

Guian Fang, Wenbiao Yan, Yuanfan Guo et al.

ECCV 2024arXiv:2407.06937

text-to-image diffusionhuman anomaly generationanatomical anomaly detectionpose-reversible guidance+3

14

citations

#87

MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks

Yinghao Zhu, Ziyi He, Haoran Hu et al.

NeurIPS 2025arXiv:2505.12371

multi-agent collaborationmedical question answeringlay summary generationelectronic health record modeling+3

13

citations

#88

Brain-ID: Learning Contrast-agnostic Anatomical Representations for Brain Imaging

Peirong Liu, Oula Puonti, Xiaoling Hu et al.

CardiacNet: Learning to Reconstruct Abnormalities for Cardiac Disease Assessment from Echocardiogram Videos

JIEWEN YANG, Yiqun Lin, Bin Pu et al.

Adaptive Compressed Sensing with Diffusion-Based Posterior Sampling

Noam Elata, Tomer Michaeli, Michael Elad

DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion

Liao Shen, Tianqi Liu, Huiqiang Sun et al.

ECCV 2024arXiv:2409.09605

image interpolationdiffusion modelssemantic consistencylarge motion+3

13

citations

#92

ASIGN: An Anatomy-aware Spatial Imputation Graphic Network for 3D Spatial Transcriptomics

Junchao Zhu, Ruining Deng, Tianyuan Yao et al.

CVPR 2025arXiv:2412.03026

spatial transcriptomics3d histology analysisgraph neural networksmulti-modal data integration+4

13

citations

#93

LQMFormer: Language-aware Query Mask Transformer for Referring Image Segmentation

Nisarg Shah, Vibashan VS, Vishal M. Patel

Patient-Level Anatomy Meets Scanning-Level Physics: Personalized Federated Low-Dose CT Denoising Empowered by Large Language Model

Ziyuan Yang, Yingyu Chen, Zhiwen Wang et al.

CVPR 2025arXiv:2503.00908

low-dose ct denoisingfederated learningphysics-informed hypernetworksmedical large language models+3

12

citations

#95

Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers

Andrew Luo, Jacob Yeung, Rushikesh Zawar et al.

ICLR 2025arXiv:2410.05266

vision transformerscortical semantic selectivityneural activity predictiondense spatial features+4

12

citations

#96

Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging

Mengjie Qin, Yuchao Feng, Zongliang Wu et al.

Prototype-Based Image Prompting for Weakly Supervised Histopathological Image Segmentation

Qingchen Tang, Lei Fan, Maurice Pagnucco et al.

ChEX: Interactive Localization and Region Description in Chest X-rays

Philip Müller, Georgios Kaissis, Daniel Rueckert

CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models

David Dai, Peilin Chen, Malinda Lu et al.

PairAug: What Can Augmented Image-Text Pairs Do for Radiology?

Yutong Xie, Qi Chen, Sinuo Wang et al.

CVPR 2024

12

citations

Medical Imaging

Top Conferences

Related Topics (Applications)

Top Papers

MedSegDiff-V2: Diffusion-based Medical Image Segmentation with Transformer

Real-IAD: A Real-World Multi-View Dataset for Benchmarking Versatile Industrial Anomaly Detection

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Rolling-Unet: Revitalizing MLP’s Ability to Efficiently Extract Long-Distance Dependencies for Medical Image Segmentation

Decoding Natural Images from EEG for Object Recognition

Brain decoding: toward real-time reconstruction of visual perception

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion

Dynamic Graph Representation with Knowledge-aware Attention for Histopathology Whole Slide Image Analysis

VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis

MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification

Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding

MuSc: Zero-Shot Industrial Anomaly Classification and Segmentation with Mutual Scoring of the Unlabeled Images

GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes

ReMamber: Referring Image Segmentation with Mamba Twister

GPAvatar: Generalizable and Precise Head Avatar from Image(s)

One-Prompt to Segment All Medical Images

A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

A Diffusion-Based Framework for Multi-Class Anomaly Detection

ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image

VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging

Transformer-Based No-Reference Image Quality Assessment via Supervised Contrastive Learning

NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation

Visual Agentic AI for Spatial Reasoning with a Dynamic API

Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation

Think Twice Before Selection: Federated Evidential Active Learning for Medical Image Analysis with Domain Shifts

FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification

Image Compression for Machine and Human Vision With Spatial-Frequency Adaptation

Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding

Automatic Radiology Reports Generation via Memory Alignment Network

I-MedSAM: Implicit Medical Image Segmentation with Segment Anything

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

DGR-MIL: Exploring Diverse Global Representation in Multiple Instance Learning for Whole Slide Image Classification

Tyche: Stochastic In-Context Learning for Medical Image Segmentation

Supervised Anomaly Detection for Complex Industrial Images

An Intelligent Agentic System for Complex Image Restoration Problems

RadGPT: Constructing 3D Image-Text Tumor Datasets

GeoCalib: Learning Single-image Calibration with Geometric Optimization

Improving Medical Multi-modal Contrastive Learning with Expert Annotations

CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology

RadEdit: stress-testing biomedical vision models via diffusion image editing

ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Boosting Neural Cognitive Diagnosis with Student’s Affective State Modeling

Region-Adaptive Transform with Segmentation Prior for Image Compression

TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data

An Incremental Unified Framework for Small Defect Inspection

Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report Generation

BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion

MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models

NICP: Neural ICP for 3D Human Registration at Scale

KGARevion: An AI Agent for Knowledge-Intensive Biomedical QA

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

CC-SAM: Enhancing SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation

InsMapper: Exploring Inner-instance Information for Vectorized HD Mapping

PAIR Diffusion: A Comprehensive Multimodal Object-Level Image Editor

InfMAE: A Foundation Model in The Infrared Modality

Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks

GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images

CycleINR: Cycle Implicit Neural Representation for Arbitrary-Scale Volumetric Super-Resolution of Medical Data

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

Revisiting MAE Pre-training for 3D Medical Image Segmentation

Diversified and Personalized Multi-rater Medical Image Segmentation

Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Is Artificial Intelligence Generated Image Detection a Solved Problem?

Self-Supervised Video Desmoking for Laparoscopic Surgery