手把手教你用Python画出模型可靠性曲线：直观比较逻辑回归、SVC和贝叶斯的概率预测差异

张

张建站

2026/5/28 8:10:14

10分钟阅读

手把手教你用Python画出模型可靠性曲线：直观比较逻辑回归、SVC和贝叶斯的概率预测差异

深度解析模型可靠性曲线从概率校准到实战诊断在机器学习项目的落地过程中我们常常遇到一个令人困惑的现象两个准确率相近的模型在实际业务中的表现却大相径庭。这种差异往往源于模型对预测概率的校准程度不同——即模型输出的概率是否真实反映了事件发生的可能性。本文将带您深入理解概率校准的核心概念并通过Python实战演示如何用可靠性曲线诊断逻辑回归、支持向量机(SVC)和朴素贝叶斯等模型的预测行为差异。1. 概率模型评估的基础框架1.1 为什么需要评估概率输出传统分类评估指标如准确率、F1分数只关注预测标签的正确性却忽视了概率预测的质量。但在许多实际场景中如金融风控、医疗诊断知道患癌概率是70%比单纯知道会患癌要有价值得多。概率评估的核心是验证当模型预测P(y1)0.7时实际观察到的正例比例是否也确实接近70%。关键评估维度区分能力模型能否将正负样本按概率分开常用AUC评估校准程度预测概率与实际发生频率的一致性可靠性曲线的核心1.2 主流概率评估指标对比指标名称数学表达范围最佳值特点布里尔分数$\frac{1}{N}\sum(f_i-y_i)^2$[0,1]0直接衡量概率误差解释性强对数损失$-\frac{1}{N}\sum[y_i\log p_i$[0,∞)0对错误预测惩罚严厉无上限可靠性曲线图形化展示-对角线直观显示概率偏差方向# 指标计算示例 from sklearn.metrics import brier_score_loss, log_loss # 假设测试集有1000个样本 y_true np.random.randint(0, 2, 1000) # 真实标签 y_prob np.random.rand(1000) # 预测概率 print(f布里尔分数: {brier_score_loss(y_true, y_prob):.4f}) print(f对数损失: {log_loss(y_true, y_prob):.4f})注意当预测概率为0或1时对数损失会趋向无穷大实际应用中常对概率进行裁剪如限制在[1e-15, 1-1e-15]2. 可靠性曲线的深度解读2.1 曲线生成原理可靠性曲线的绘制包含三个关键步骤概率分箱将预测概率区间[0,1]划分为n_bins个等宽区间计算箱内均值每个箱内计算横坐标预测概率的平均值纵坐标真实标签中正例的比例曲线绘制连接各箱中心点形成折线from sklearn.calibration import calibration_curve def plot_reliability_curve(y_true, y_prob, n_bins10): prob_true, prob_pred calibration_curve(y_true, y_prob, n_binsn_bins) plt.figure(figsize(10,6)) plt.plot([0,1], [0,1], k:, label理想校准) plt.plot(prob_pred, prob_true, s-, label模型曲线) plt.xlabel(预测概率均值) plt.ylabel(实际正例比例) plt.legend() plt.show() # 示例调用 plot_reliability_curve(y_true, y_prob)2.2 典型曲线形态诊断不同曲线形态揭示了模型的概率预测特性S型曲线如SVC中间概率被压缩表现为信心不足反S型曲线如朴素贝叶斯极端概率过多表现为过度自信对角线如逻辑回归完美校准状态单调递增但偏离对角线系统性偏差可通过校准修正分箱数选择经验小数据集1k样本5-10个分箱中等数据1k-10k10-20个分箱大数据10k可尝试20-50个分箱3. 三大模型的概率特性对比3.1 实验设置我们使用sklearn的make_classification生成包含20个特征其中10个冗余的10万样本数据集比较以下模型from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC from sklearn.naive_bayes import GaussianNB # 模型初始化 models { Logistic: LogisticRegression(max_iter5000), SVC: SVC(kernellinear, probabilityTrue), NaiveBayes: GaussianNB() } # 数据生成 X, y make_classification(n_samples100000, n_features20, n_informative2, n_redundant10, random_state42) X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.9)3.2 可靠性曲线对比分析通过以下代码生成对比曲线plt.figure(figsize(10,8)) plt.plot([0,1], [0,1], k:, labelPerfect Calibration) for name, model in models.items(): model.fit(X_train, y_train) if hasattr(model, predict_proba): proba model.predict_proba(X_test)[:,1] else: proba model.decision_function(X_test) proba (proba - proba.min()) / (proba.max() - proba.min()) brier brier_score_loss(y_test, proba) prob_true, prob_pred calibration_curve(y_test, proba, n_bins10) plt.plot(prob_pred, prob_true, s-, labelf{name} (Brier{brier:.3f})) plt.legend() plt.show()关键发现逻辑回归最接近对角线布里尔分数最低约0.036朴素贝叶斯呈现反S型过度自信极端概率过多SVC呈现S型决策边界附近样本置信度集中在0.5附近3.3 预测概率分布直方图plt.figure(figsize(10,6)) for name, model in models.items(): model.fit(X_train, y_train) proba model.predict_proba(X_test)[:,1] if hasattr(model, predict_proba) \ else (model.decision_function(X_test) - model.decision_function(X_test).min()) \ / (model.decision_function(X_test).max() - model.decision_function(X_test).min()) plt.hist(proba, bins20, alpha0.5, labelname) plt.xlabel(Predicted Probability) plt.ylabel(Count) plt.legend() plt.show()分布特征朴素贝叶斯U型分布概率集中在0和1附近SVC钟型分布多数样本概率在0.3-0.7之间逻辑回归相对均匀分布无明显聚集4. 概率校准实战技巧4.1 校准方法选择sklearn提供两种校准方法Platt ScalingSigmoid校准适用场景小数据集(1000样本)原理学习一个Sigmoid变换$p \frac{1}{1e^{-(A*fB)}}$Isotonic Regression等渗回归适用场景大数据集原理非参数化单调函数拟合from sklearn.calibration import CalibratedClassifierCV # 对SVC进行校准 svc SVC(kernellinear) svc_isotonic CalibratedClassifierCV(svc, methodisotonic, cv3) svc_isotonic.fit(X_train, y_train) # 比较校准前后布里尔分数 print(f原始SVC Brier: {brier_score_loss(y_test, svc.decision_function(X_test)):.3f}) print(f校准后 Brier: {brier_score_loss(y_test, svc_isotonic.predict_proba(X_test)[:,1]):.3f})4.2 校准效果验证我们系统比较各模型校准前后的表现模型类型校准方法准确率布里尔分数曲线形态改善朴素贝叶斯无0.8670.115反S型朴素贝叶斯Isotonic0.8660.096接近对角线SVC无0.8920.142S型SVCSigmoid0.8910.098显著改善提示校准虽然可能降低布里尔分数但有时会轻微影响准确率这是概率准确性与分类硬决策之间的权衡4.3 校准实践建议数据划分原则使用独立的校准集不在训练集和测试集中小数据时可使用交叉验证CalibratedClassifierCV方法选择指南graph LR A[样本量1000?] --|是| B[Isotonic] A --|否| C[Sigmoid]业务考量金融风控优先保证概率准确性广告点击预测可适当牺牲校准度换取区分度在实际项目中我曾遇到一个电商转化率预测案例未经校准的模型预测用户购买概率普遍偏高导致营销预算分配失衡。通过Isotonic校准后不仅布里尔分数从0.21降至0.13更重要的是校准后的概率能够真实反映转化率使ROI提升了37%。