🧬Robustness

Model Calibration

Calibrating confidence estimates

100 papers965 total citations

Compare with other topics

Feb '24 — Jan '26436 papers

Top Conferences

ICLR: 30 NeurIPS: 19 AAAI: 16 ICML: 16 CVPR: 13 ECCV: 5

Top Papers

#1

Conformal Risk Control

Anastasios Angelopoulos, Stephen Bates, Adam Fisch et al.

Calibrating Large Language Models with Sample Consistency

Qing Lyu, Kumar Shridhar, Chaitanya Malaviya et al.

Smooth ECE: Principled Reliability Diagrams via Kernel Smoothing

Jaroslaw Blasiok, Preetum Nakkiran

Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement

Jaehun Jung, Faeze Brahman, Yejin Choi

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda et al.

Reasoning Models Better Express Their Confidence

Dongkeun Yoon, Seungone Kim, Sohee Yang et al.

Copula Conformal prediction for multi-step time series prediction

Sophia Sun, Rose Yu

GeoCalib: Learning Single-image Calibration with Geometric Optimization

Alexander Veicht, Paul-Edouard Sarlin, Philipp Lindenberger et al.

Addressing Misspecification in Simulation-based Inference through Data-driven Calibration

Antoine Wehenkel, Juan L. Gamella, Ozan Sener et al.

A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark

Jakub Paplham, Vojtech Franc

Bounds on Representation-Induced Confounding Bias for Treatment Effect Estimation

Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel

A Unified Comparative Study with Generalized Conformity Scores for Multi-Output Conformal Regression

Victor Dheur, Matteo Fontana, Yorick Estievenart et al.

Toward Generalized Image Quality Assessment: Relaxing the Perfect Reference Quality Assumption

Du CHEN, Tianhe Wu, Kede Ma et al.

Kandinsky Conformal Prediction: Efficient Calibration of Image Segmentation Algorithms

Joren Brunekreef, Eric Marcus, Ray Sheombarsing et al.

Make Me a BNN: A Simple Strategy for Estimating Bayesian Uncertainty from Pre-trained Models

Gianni Franchi, Olivier Laurent, Maxence Leguéry et al.

PAC Prediction Sets Under Label Shift

Wenwen Si, Sangdon Park, Insup Lee et al.

R-EDL: Relaxing Nonessential Settings of Evidential Deep Learning

Mengyuan Chen, Junyu Gao, Changsheng Xu

Conformal Thresholded Intervals for Efficient Regression

Rui Luo, Zhixin Zhou

Confidence Estimation for Error Detection in Text-to-SQL Systems

Oleg Somov, Elena Tutubalina

Consistency Checks for Language Model Forecasters

Daniel Paleka, Abhimanyu Pallavi Sudhir, Alejandro Alvarez et al.

ICLR 2025arXiv:2412.18544

language model forecastingconsistency checksautomated evaluation systemarbitrage-based metrics+3

10

citations

#21

Reliable and Efficient Amortized Model-based Evaluation

Sang Truong, Yuheng Tu, Percy Liang et al.

Towards Modeling Uncertainties of Self-explaining Neural Networks via Conformal Prediction

Wei Qian, Chenxu Zhao, Yangyi Li et al.

AAAI 2024arXiv:2401.01549

self-explaining neural networksconformal predictionuncertainty quantificationinterpretable machine learning+4

10

citations

#23

ConfTuner: Training Large Language Models to Express Their Confidence Verbally

Yibo Li, Miao Xiong, Jiaying Wu et al.

On Temperature Scaling and Conformal Prediction of Deep Classifiers

Lahav Dabah, Tom Tirer

Foundation Model-oriented Robustness: Robust Image Model Evaluation with Pretrained Models

Peiyan Zhang, Haoyang Liu, Chaozhuo Li et al.

Unraveling Batch Normalization for Realistic Test-Time Adaptation

Zixian Su, Jingwei Guo, Kai Yao et al.

AAAI 2024arXiv:2312.09486

batch normalizationtest-time adaptationdomain shiftmini-batch degradation+3

9

citations

#27

Noise Calibration and Spatial-Frequency Interactive Network for STEM Image Enhancement

Hesong Li, Ziqi Wu, Ruiwen Shao et al.

Error-quantified Conformal Inference for Time Series

Junxi Wu, Dongjian Hu, Yajie Bao et al.

ICLR 2025arXiv:2502.00818

conformal inferenceuncertainty quantificationtime series predictionprediction sets+3

8

citations

#29

On the Limitations of Temperature Scaling for Distributions with Overlaps

Muthu Chidambaram, Rong Ge

Conformal Linguistic Calibration: Trading-off between Factuality and Specificity

Zhengping Jiang, Anqi Liu, Ben Van Durme

NeurIPS 2025arXiv:2502.19110

linguistic calibrationuncertainty quantificationconformal predictionanswer set prediction+3

7

citations

#31

Adaptive Calibration: A Unified Conversion Framework of Spiking Neural Networks

Ziqing Wang, Yuetong Fang, Jiahang Cao et al.

Error Bounds for Gaussian Process Regression Under Bounded Support Noise with Applications to Safety Certification

Robert Reed, Luca Laurenti, Morteza Lahijanian

Robustness Auditing for Linear Regression: To Singularity and Beyond

Ittai Rubinstein, Samuel Hopkins

ICLR 2025arXiv:2410.07916

robustness auditinglinear regressionordinary least squaressample removal+3

7

citations

#34

SteerConf: Steering LLMs for Confidence Elicitation

Ziang Zhou, Tianyuan Jin, Jieming Shi et al.

NeurIPS 2025arXiv:2503.02863

confidence elicitationmodel calibrationsteering prompt strategyconfidence consistency+3

6

citations

#35

Epistemic Uncertainty Quantification For Pre-Trained Neural Networks

Hanjing Wang, Qiang Ji

The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing

Blaise Delattre, Alexandre Araujo, Quentin Barthélemy et al.

CSformer: Combining Channel Independence and Mixing for Robust Multivariate Time Series Forecasting

Haoxin Wang, Yipeng Mo, Kunlan Xiang et al.

Simultaneous Swap Regret Minimization via KL-Calibration

Haipeng Luo, Spandan Senapati, Vatsal Sharan

NeurIPS 2025arXiv:2502.16387

swap regret minimizationkl-calibrationcalibration measuresproper loss functions+3

6

citations

#39

Overestimation in LLM Evaluation: A Controlled Large-Scale Study on Data Contamination’s Impact on Machine Translation

Muhammed Yusuf Kocyigit, Eleftheria Briakou, Daniel Deutsch et al.

Calibrating Expressions of Certainty

Peiqi Wang, Barbara Lam, Yingcheng Liu et al.

ICLR 2025arXiv:2410.04315

certainty calibrationlinguistic expressionsuncertainty distributionspost-hoc calibration+3

5

citations

#41

A Generic Framework for Conformal Fairness

Aditya Vadlamani, Anutam Srinivasan, Pranav Maneriker et al.

On Volume Minimization in Conformal Regression

Batiste Le Bars, Pierre Humbert

Feature Clipping for Uncertainty Calibration

Linwei Tao, Minjing Dong, Chang Xu

Integral Imprecise Probability Metrics

Siu Lun (Alan) Chau, Michele Caprio, Krikamol Muandet

Learning with Calibration: Exploring Test-Time Computing of Spatio-Temporal Forecasting

Wei Chen, Yuxuan Liang

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Yuxin Wang, Maresa Schröder, Dennis Frauen et al.

Revisiting Calibration of Wide-Angle Radially Symmetric Cameras

Andrea Porfiri Dal Cin, Francesco Azzoni, Giacomo Boracchi et al.

ECCV 2024

camera calibrationwide-angle camerasradially symmetric modelsimplicit camera representation+4

5

citations

#48

QA-Calibration of Language Model Confidence Scores

Putra Manggala, Atalanti A Mastakouri, Elke Kirschbaum et al.

Difficulty-aware Balancing Margin Loss for Long-tailed Recognition

Minseok Son, Inyong Koo, Jinyoung Park et al.

AnyCalib: On-Manifold Learning for Model-Agnostic Single-View Camera Calibration

Javier Tirado-Garín, Javier Civera

Robust Self-calibration of Focal Lengths from the Fundamental Matrix

Viktor Kocur, Daniel Kyselica, Zuzana Kukelova

Effectiveness of Constant Stepsize in Markovian LSA and Statistical Inference

Dongyan Huo, Yudong Chen, Qiaomin Xie

AAAI 2024arXiv:2312.10894

linear stochastic approximationmarkovian dataconstant stepsizestatistical inference+4

4

citations

#53

Conformal Inference of Individual Treatment Effects Using Conditional Density Estimates

Baozhen Wang, Xingye Qiao

Generalized Venn and Venn-Abers Calibration with Applications in Conformal Prediction

Lars van der Laan, Ahmed Alaa

Kernel-based Optimally Weighted Conformal Time-Series Prediction

Jonghyeok Lee, Chen Xu, Yao Xie

Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation

David Heineman, Valentin Hofmann, Ian Magnusson et al.

Quantifying Prediction Consistency Under Fine-tuning Multiplicity in Tabular LLMs

Faisal Hamman, Sachindra P Dissanayake, Saumitra Mishra et al.

Conformal Prediction for Ensembles: Improving Efficiency via Score-Based Aggregation

Yash Patel, Eduardo Ochoa Rivera, Ambuj Tewari

Introducing FOReCAst: The Future Outcome Reasoning and Confidence Assessment Benchmark

Zhangdie Yuan, Zifeng Ding, Andreas Vlachos

Backward Conformal Prediction

Etienne Gauthier, Francis Bach, Michael Jordan

$\texttt{BetaConform}$: Efficient MAP Estimation of LLM Ensemble Judgment Performance with Prior Transfer

Huaizhi Qu, Inyoung Choi, Zhen Tan et al.

Non-parametric Sensor Noise Modeling and Synthesis

Ali Mosleh, Luxi Zhao, Atin Vikram Singh et al.

ECCV 2024

sensor noise modelingnon-parametric modelingnoise synthesisprobability mass functions+2

4

citations

#63

Towards Establishing Guaranteed Error for Learned Database Operations

Sepanta Zeighami, Cyrus Shahabi

Unlocking the Potential of Model Calibration in Federated Learning

Yun-Wei Chu, Dong-Jun Han, Seyyedali Hosseinalipour et al.

Simplification Is All You Need against Out-of-Distribution Overconfidence

Keke Tang, Chao Hou, Weilong Peng et al.

Towards Robust Influence Functions with Flat Validation Minima

Xichen Ye, Yifan Wu, Weizhong Zhang et al.

Multi-Accurate CATE is Robust to Unknown Covariate Shifts

Angela Zhou, Christoph Kern, Michael Kim

ICLR 2025

heterogeneous treatment effectsconditional average treatment effectscovariate shift robustnessmulti-accurate predictors+4

3

citations

#68

Credal Wrapper of Model Averaging for Uncertainty Estimation in Classification

Kaizheng Wang, Fabio Cuzzolin, Keivan Shariatmadar et al.

ICLR 2025arXiv:2405.15047

uncertainty estimationbayesian neural networksdeep ensemblescredal set representation+3

3

citations

#69

How Benchmark Prediction from Fewer Data Misses the Mark

Guanhua Zhang, Florian E. Dorner, Moritz Hardt

Uncertainty Weighted Gradients for Model Calibration

Jinxu Lin, Linwei Tao, Minjing Dong et al.

CVPR 2025arXiv:2503.22725

model calibrationuncertainty estimationloss functionsgradient weighting+4

3

citations

#71

Towards Calibrated Deep Clustering Network

Yuheng Jia, Jianhong Cheng, Hui LIU et al.

Calibrating LLMs with Information-Theoretic Evidential Deep Learning

Yawei Li, David Rügamer, Bernd Bischl et al.

High-Dimensional Calibration from Swap Regret

Maxwell Fishelson, Noah Golowich, Mehryar Mohri et al.

Probably Approximately Precision and Recall Learning

Lee Cohen, Yishay Mansour, Shay Moran et al.

Human-in-the-Loop Visual Re-ID for Population Size Estimation

Gustavo Perez, Daniel Sheldon, Grant Van Horn et al.

Multi-Dimensional Conformal Prediction

Yam Tawachi, Bracha Laufer-Goldshtein

Fractal Calibration for Long-tailed Object Detection

Konstantinos Alexandridis, Ismail Elezi, Jiankang Deng et al.

Consistency-Guided Temperature Scaling Using Style and Content Information for Out-of-Domain Calibration

Wonjeong Choi, Jungwuk Park, Dong-Jun Han et al.

AAAI 2024arXiv:2402.15019

temperature scalingout-of-domain calibrationdomain shift robustnessconfidence calibration+3

2

citations

#79

Discretization-free Multicalibration through Loss Minimization over Tree Ensembles

Hongyi Henry Jin, Zijun Ding, Dung Daniel Ngo et al.

From Variance to Veracity: Unbundling and Mitigating Gradient Variance in Differentiable Bundle Adjustment Layers

Swaminathan Gurumurthy, Karnik Ram, Bingqing Chen et al.

Learning With Multi-Group Guarantees For Clusterable Subpopulations

Jessica Dai, Nika Haghtalab, Eric Zhao

FreeCap: Hybrid Calibration-Free Motion Capture in Open Environments

Aoru Xue, Yiming Ren, Zining Song et al.

Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning

Yan Scholten, Stephan Günnemann

ICLR 2025arXiv:2410.09878

conformal predictionuncertainty quantificationdata poisoning attacksprediction sets+2

2

citations

#84

How Much is Unseen Depends Chiefly on Information About the Seen

Seongmin Lee, Marcel Boehme

Rethinking Classifier Re-Training in Long-Tailed Recognition: Label Over-Smooth Can Balance

Siyu Sun, Han Lu, Jiangtong Li et al.

CBMA: Improving Conformal Prediction through Bayesian Model Averaging

Pankaj Bhagwat, Linglong Kong, Bei Jiang

Stochastic Online Conformal Prediction with Semi-Bandit Feedback

Haosen Ge, Hamsa Bastani, Osbert Bastani

Exact Recovery of Sparse Binary Vectors from Generalized Linear Measurements

Arya Mazumdar, Neha Sangwan

Conformal Inference under High-Dimensional Covariate Shifts via Likelihood-Ratio Regularization

Sunay Joshi, Shayan Kiyani, George J. Pappas et al.

Learning multivariate Gaussians with imperfect advice

Arnab Bhattacharyya, Davin Choo, Philips George John et al.

Beyond One-Hot Labels: Semantic Mixing for Model Calibration

Haoyang Luo, Linwei Tao, Minjing Dong et al.

Credal Prediction based on Relative Likelihood

Timo Löhr, Paul Hofman, Felix Mohr et al.

Towards Certification of Uncertainty Calibration under Adversarial Attacks

Cornelius Emde, Francesco Pinto, Thomas Lukasiewicz et al.

ICLR 2025arXiv:2405.13922

uncertainty calibrationadversarial attackscertification methodsmodel calibration+3

2

citations

#94

Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models

Sima Noorani, Shayan Kiyani, George J. Pappas et al.

Calibrated Language Models and How to Find Them with Label Smoothing

Jerry Huang, Peng Lu, QIUHAO Zeng

MC-PanDA: Mask Confidence for Panoptic Domain Adaptation

Ivan Martinovic, Josip Šarić, Siniša Šegvić

ECCV 2024arXiv:2407.14110

panoptic segmentationdomain adaptationmask transformersprediction uncertainty+3

2

citations

#97

T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-Incremental Learning

Seong-Hyeon Hwang, Minsu Kim, Steven Euijong Whang

RC-AutoCalib: An End-to-End Radar-Camera Automatic Calibration Network

Van-Tin Luu, Yong-Lin Cai, Vu-Hoang Tran et al.

Uncertainty-Aware Self-Training for CTC-Based Automatic Speech Recognition

Eungbeom Kim, Kyogu Lee

Pushing the Limits of BFP on Narrow Precision LLM Inference

Hui Wang, Yuan Cheng, Xiaomeng Han et al.

AAAI 2025

1

citations

Model Calibration

Top Conferences

Related Topics (Robustness)

Top Papers

Conformal Risk Control

Calibrating Large Language Models with Sample Consistency

Smooth ECE: Principled Reliability Diagrams via Kernel Smoothing

Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Reasoning Models Better Express Their Confidence

Copula Conformal prediction for multi-step time series prediction

GeoCalib: Learning Single-image Calibration with Geometric Optimization

Addressing Misspecification in Simulation-based Inference through Data-driven Calibration

A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark

Bounds on Representation-Induced Confounding Bias for Treatment Effect Estimation

A Unified Comparative Study with Generalized Conformity Scores for Multi-Output Conformal Regression

Toward Generalized Image Quality Assessment: Relaxing the Perfect Reference Quality Assumption

Kandinsky Conformal Prediction: Efficient Calibration of Image Segmentation Algorithms

Make Me a BNN: A Simple Strategy for Estimating Bayesian Uncertainty from Pre-trained Models

PAC Prediction Sets Under Label Shift

R-EDL: Relaxing Nonessential Settings of Evidential Deep Learning

Conformal Thresholded Intervals for Efficient Regression

Confidence Estimation for Error Detection in Text-to-SQL Systems

Consistency Checks for Language Model Forecasters

Reliable and Efficient Amortized Model-based Evaluation

Towards Modeling Uncertainties of Self-explaining Neural Networks via Conformal Prediction

ConfTuner: Training Large Language Models to Express Their Confidence Verbally

On Temperature Scaling and Conformal Prediction of Deep Classifiers

Foundation Model-oriented Robustness: Robust Image Model Evaluation with Pretrained Models

Unraveling Batch Normalization for Realistic Test-Time Adaptation

Noise Calibration and Spatial-Frequency Interactive Network for STEM Image Enhancement

Error-quantified Conformal Inference for Time Series

On the Limitations of Temperature Scaling for Distributions with Overlaps

Conformal Linguistic Calibration: Trading-off between Factuality and Specificity

Adaptive Calibration: A Unified Conversion Framework of Spiking Neural Networks

Error Bounds for Gaussian Process Regression Under Bounded Support Noise with Applications to Safety Certification

Robustness Auditing for Linear Regression: To Singularity and Beyond

SteerConf: Steering LLMs for Confidence Elicitation

Epistemic Uncertainty Quantification For Pre-Trained Neural Networks

The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing

CSformer: Combining Channel Independence and Mixing for Robust Multivariate Time Series Forecasting

Simultaneous Swap Regret Minimization via KL-Calibration

Overestimation in LLM Evaluation: A Controlled Large-Scale Study on Data Contamination’s Impact on Machine Translation

Calibrating Expressions of Certainty

A Generic Framework for Conformal Fairness

On Volume Minimization in Conformal Regression

Feature Clipping for Uncertainty Calibration

Integral Imprecise Probability Metrics

Learning with Calibration: Exploring Test-Time Computing of Spatio-Temporal Forecasting

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Revisiting Calibration of Wide-Angle Radially Symmetric Cameras

QA-Calibration of Language Model Confidence Scores

Difficulty-aware Balancing Margin Loss for Long-tailed Recognition

AnyCalib: On-Manifold Learning for Model-Agnostic Single-View Camera Calibration

Robust Self-calibration of Focal Lengths from the Fundamental Matrix

Effectiveness of Constant Stepsize in Markovian LSA and Statistical Inference

Conformal Inference of Individual Treatment Effects Using Conditional Density Estimates

Generalized Venn and Venn-Abers Calibration with Applications in Conformal Prediction

Kernel-based Optimally Weighted Conformal Time-Series Prediction

Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation

Quantifying Prediction Consistency Under Fine-tuning Multiplicity in Tabular LLMs

Conformal Prediction for Ensembles: Improving Efficiency via Score-Based Aggregation

Introducing FOReCAst: The Future Outcome Reasoning and Confidence Assessment Benchmark

Backward Conformal Prediction

$\texttt{BetaConform}$: Efficient MAP Estimation of LLM Ensemble Judgment Performance with Prior Transfer

Non-parametric Sensor Noise Modeling and Synthesis

Towards Establishing Guaranteed Error for Learned Database Operations

Unlocking the Potential of Model Calibration in Federated Learning

Simplification Is All You Need against Out-of-Distribution Overconfidence

Towards Robust Influence Functions with Flat Validation Minima

Multi-Accurate CATE is Robust to Unknown Covariate Shifts

Credal Wrapper of Model Averaging for Uncertainty Estimation in Classification

How Benchmark Prediction from Fewer Data Misses the Mark

Uncertainty Weighted Gradients for Model Calibration

Towards Calibrated Deep Clustering Network

Calibrating LLMs with Information-Theoretic Evidential Deep Learning

High-Dimensional Calibration from Swap Regret

Probably Approximately Precision and Recall Learning

Human-in-the-Loop Visual Re-ID for Population Size Estimation

Multi-Dimensional Conformal Prediction