机器学习弃权机制：附加式与融合式实现详解

张

张建站

2026/5/25 2:25:56

10分钟阅读

1. 项目概述在机器学习尤其是分类任务中我们通常期望模型对每一个输入样本都给出一个明确的类别标签。然而现实世界的数据充满了模糊性和不确定性。想象一下你是一位放射科医生面对一张乳腺X光片图像特征可能恰好落在良性和恶性病变的边界上或者图像质量不佳、存在伪影。此时一个有经验的医生不会贸然给出“良性”或“恶性”的诊断而是会要求进行进一步的检查或者明确标注“无法判断”。这种“知之为知之不知为不知”的审慎态度正是人类智能在面对不确定性时的核心体现。那么机器学习模型能否、以及如何具备这种“自知之明”呢这就是弃权机制Abstention要解决的核心问题。弃权机制允许模型在认为自身预测不可靠时主动选择“不回答”而不是给出一个可能错误的答案。这听起来简单但其背后的技术实现路径却大有不同主要分为附加式弃权和融合式弃权两大类。前者像是在一个成熟的分类器外部加装了一个独立的“质检员”后者则是将“弃权”内化为模型决策逻辑的一部分。选择哪种方式不仅影响模型的性能指标更深远地它触及了一个有趣的哲学问题机器的这种“拒绝判断”行为在多大程度上类似于人类认知中的“悬置判断”本文将深入拆解这两种弃权机制的技术细节、实现逻辑、适用场景并探讨其背后的设计哲学与工程权衡。2. 弃权机制的核心价值与分类依据在深入技术细节之前我们必须先厘清模型为什么需要弃权以及什么样的不确定性值得弃权2.1 为何弃权从实用主义到可靠性工程从最功利的视角看弃权是为了提升系统的整体可靠性和用户体验。在一个二分类系统中准确率从95%提升到96%可能需要巨大的工程代价但通过一个设计良好的弃权机制拒绝掉那最难判断的1%的样本系统的覆盖准确率即只对那些做出判断的样本计算的准确率可能轻松达到99%以上。这在医疗诊断、金融风控、自动驾驶等高风险领域具有决定性意义。一个偶尔“不知道”但极其可靠的系统远比一个总是“瞎猜”的系统更有价值。更深层次地弃权机制促使我们正视机器学习模型的一个根本局限它们是在有限的、有偏的训练数据上学习到的函数近似器。对于训练数据分布之外的样本分布外样本或处于类别决策边界附近的模糊样本模型的预测本质上是外推或内插其置信度可能完全失真。弃权机制为模型提供了一种“安全阀”使其能够承认自身知识的边界。2.2 不确定性溯源模糊性与异常值根据不确定性的来源弃权通常针对两种典型情况模糊性弃权输入样本本身特征模糊导致模型对不同类别的支持度相近。例如一张狗的照片同时具有哈士奇和阿拉斯加的特征。判断一个样本是否模糊强烈依赖于已训练好的具体模型。因为模糊性存在于特征空间中不同类别决策边界的重叠区域而这个区域的形状是由模型参数决定的。仅凭原始训练数据和该样本本身无法预先判断其是否模糊。异常值弃权输入样本与训练数据整体分布差异巨大属于模型未曾见过的“新奇”事物。例如给一个狗品种分类器输入一张猫的图片。判断一个样本是否为异常值可以相对独立于具体的分类模型更多地基于该样本与整个训练数据集的相似度如距离度量、密度估计。理论上在模型训练之前我们就可以通过分析训练数据分布预先划定一个“正常数据区域”。理解这两种不确定性的区别至关重要因为它直接决定了后续弃权机制技术路线的选择。一个旨在处理模糊样本的机制在应对异常值时可能效果不佳反之亦然。3. 技术实现深度解析附加式弃权附加式弃权顾名思义是在原有的预测模型我们称之为预测器之上附加一个独立的拒绝器模块。预测器和拒绝器各司其职流程上是分离的。根据拒绝器发挥作用的时间点又可分为算法前附加和算法后附加。3.1 算法前附加弃权守门员策略在这种架构中拒绝器像一个严格的“守门员”在输入数据进入预测器之前就进行拦截检查。3.1.1 工作原理与流程其工作流程是线性的、分阶段的输入样本x进入系统。拒绝判断拒绝器r首先被激活。它基于预设的规则或模型判断是否应该对该样本弃权。这个判断完全独立于最终的分类结果。决策分支如果拒绝器判断为“弃权”则流程立即终止系统直接输出“弃权”结果。预测器f根本不会启动。如果拒绝器判断为“通过”则样本被传递给预测器f。预测预测器f对样本进行常规分类输出一个类别标签y。输出系统输出预测结果y。3.1.2 典型实现与适用场景算法前附加的核心是设计拒绝器的判断逻辑。常见方法包括基于距离/密度的异常检测计算输入样本x到训练集整体或各类别中心的距离如马氏距离、K近邻距离。如果距离超过某个阈值τ则判定为异常值并弃权。这非常适用于异常值弃权。基于重构误差的模型使用自编码器等模型学习训练数据的正常模式。对于新样本计算其重构误差。误差过大表明该样本无法被已有模式很好地表示可能为异常值。简单规则过滤器在特定领域可以设置硬性规则。例如在医疗图像分析中如果图像亮度低于某个阈值或信噪比太差直接拒绝处理。注意算法前附加极不适用于模糊性弃权。因为模糊性本质上是样本相对于已训练好的决策边界的位置属性。在预测器尚未运行、决策边界未知的情况下拒绝器无法获知样本是否处于模糊区域。试图用算法前附加处理模糊性就像让一个没见过考卷的监考老师提前判断某道题是否超纲一样困难。3.1.3 优势与局限优势计算高效对于被拒绝的样本避免了运行可能更复杂的预测模型节省了计算资源。概念清晰模块化设计拒绝器和预测器可以独立开发和优化。天然适合异常检测是处理分布外样本、对抗样本的第一道防线。局限无法处理模糊性这是其最根本的局限。可能误杀过于保守的拒绝器可能会拒绝掉许多其实可以被可靠分类的样本导致覆盖率过低。阈值调优拒绝阈值τ的选择需要谨慎通常需要在验证集上通过权衡弃权率与覆盖准确率来确定。3.2 算法后附加弃权事后质检员策略这是更常见、更直观的附加式弃权。预测器先对所有样本进行常规预测然后拒绝器再对预测结果的质量进行“质检”。3.2.1 工作原理与流程输入与预测样本x直接进入预测器f。f像在非弃权系统中一样工作产生一个预测结果。通常f还会输出一个反映本次预测置信度或不确定的标量值c例如神经网络softmax层的最大概率值、支持向量机中到决策边界的距离。质量评估拒绝器r接收预测结果和置信度c。阈值决策拒绝器将置信度c与一个预设的阈值τ进行比较。如果c τ认为预测足够可靠输出预测类别。如果c τ认为预测不可靠输出“弃权”。输出根据比较结果输出最终决定。3.2.2 置信度来源与阈值设定置信度c的获取是关键模型原生输出许多模型天然能提供不确定性估计如贝叶斯神经网络的后验分布、决策树的类别概率、softmax输出向量的熵或最大概率值。事后校准对于本身不产出校准概率的模型如SVM可以使用Platt缩放、Isotonic回归等方法对原始输出进行校准使其转化为有意义的概率值。集成方法通过多次推理如MC Dropout或多个模型的预测如模型集成计算预测的方差或一致性作为不确定性的度量。阈值τ的选择是一个典型的精度-召回权衡问题。提高τ系统更保守弃权更多覆盖准确率更高但能做出判断的样本覆盖率更少。降低τ系统更激进覆盖率上升但覆盖准确率可能下降。在实际应用中通常根据业务风险设定一个可接受的最低覆盖准确率目标然后调整τ以达到该目标。3.2.3 优势与局限优势能有效处理模糊性因为它利用了模型对已见样本的决策置信度而模糊样本正在置信度低的区域。实现简单无需改动核心预测模型只需在其输出端增加一个判断逻辑易于集成到现有系统。灵活性高可以方便地更换不同的不确定性估计方法。局限对异常值可能失效一个与训练数据截然不同的异常值可能会被模型以“高置信度”错误地归入某个已知类别过度泛化。算法后附加依赖于模型自身的置信度而这种置信度对异常值常常是误判的。计算浪费即使最终要弃权也先完成了完整的预测计算。置信度校准难题许多模型的原始输出如softmax概率并非真实的校准概率直接用作置信度可能导致系统性偏差需要额外的校准步骤。3.3 附加式弃权的本质与哲学映射无论是算法前还是算法后附加式弃权的核心特征是预测与弃权决策的分离。系统实际上回答了两个问题核心问题Q“这个样本属于哪个类别”由预测器回答。元问题Q“我对刚才给出的答案有多大把握”或“这个样本是否值得回答”由拒绝器回答。弃权行为是对元问题Q’的否定回答所触发的结果而非对核心问题Q的直接回应。从哲学上看这类似于一种元认知监控先形成一个初步判断信念然后评估这个判断的可靠性。如果评估认为可靠性不足则选择不采纳这个判断。但这与人类哲学讨论中的“悬置判断”存在微妙差别。悬置判断通常被视为对问题Q本身的直接态度“我暂时不对Q做出判断”而非对另一个关于判断质量的元问题的回答。4. 技术实现深度解析融合式弃权融合式弃权采取了截然不同的思路。它不再将弃权视为一个外部附加的质检步骤而是将其内化为模型预测行为本身的一部分。在融合式架构中模型被直接训练成能够输出“弃权”这个特殊类别。4.1 核心思想弃权作为第(N1)类在K类分类问题中融合式模型将输出空间从原来的K个类别扩展为K1个类别其中第(K1)类就是“弃权”。模型f̄的目标函数被修改使得它在面对难以判断的样本时选择“弃权”所带来的损失小于强行将其错误分类到某个具体类别所带来的损失。4.2 实现路径一有标签弃权这是最直观的融合式训练方法将弃权视为一个普通的类别进行监督学习。4.2.1 训练数据准备你需要手动构建包含“弃权”标签的训练数据。例如在狗品种分类任务中训练集不仅包含标注为“哈士奇”、“拉布拉多”的图片还需要包含一批明确标注为“弃权”的图片。这些“弃权”样本可能包括模糊样本同时像两个品种的狗。异常样本非狗的图片猫、汽车、低质量图片模糊、遮挡。领域外样本其他犬科动物狼、狐狸。4.2.2 模型训练与损失函数训练过程与普通多分类任务完全相同。损失函数如交叉熵损失被扩展以处理这第(K1)个类别。模型学习从输入特征到K1个类别的映射。决策边界不再仅仅是区分K个类别还需要划分出一个“弃权区域”。4.2.3 优势与挑战优势概念简单直接利用成熟的监督学习框架。挑战标注成本与可行性为“弃权”收集有代表性的样本并准确标注极其困难。什么样的图片应该被标为“弃权”这个标准本身就很模糊且高度依赖于模型未来的能力边界。概念扭曲这种方法实质上将“弃权”物化为了一个具体的、与“哈士奇”平级的类别。这背离了弃权“拒绝选择已定义答案”的初衷。模型学习到的是“当输入看起来像这批‘弃权’训练图片时就输出弃权标签”而不是“当我对已有类别不确定时我选择弃权”。这更像是在学习一个包含了“未知”类别的更大分类问题。4.3 实现路径二无标签弃权损失函数修正法这是更优雅、也更符合弃权哲学本意的实现方式。训练数据中没有任何样本被标记为“弃权”所有样本都只有正常的K类标签。弃权能力是通过修改损失函数让模型在训练中自行“领悟”何时应该弃权。4.3.1 损失函数设计精髓核心思想是为“弃权”这一行为赋予一个介于“正确分类”和“错误分类”之间的惩罚成本 α。假设在一个二分类恶性/良性任务中原始损失函数l为0-1损失预测正确损失为 0。预测错误损失为 1。现在我们引入弃权选项并定义新的损失函数l*预测正确损失为 0。预测错误损失为 1。选择弃权损失为 α其中0 α 1。这个设计的妙处在于对于一个模型难以判断的样本如果它强行猜测有很高概率猜错期望损失接近1而选择弃权的损失是固定的α。只要α小于模型在该样本上出错的期望损失模型从损失最小化的角度出发就会“理性地”学会对该样本弃权。4.3.2 训练动态与α的意义参数α是一个超参数控制着模型的“弃权倾向”。α接近0弃权成本极低模型倾向于对大量样本弃权变得非常保守。α接近1弃权成本几乎和错误一样高模型几乎从不弃权变得非常激进。α 0.5在一个分类问题中如果模型对两个类别的预测概率都是0.5完全不确定那么猜错的期望损失是0.51 0.51 1而弃权损失是0.5。此时弃权是更优选择。这符合直觉当你不确定时不如明白地说“我不知道”。更一般化的理论如Chow规则指出对于K类分类最优的弃权阈值与α有关。模型应该弃权当且仅当其预测的最可能类别的概率小于 (1 - α)。α成为了可靠性与覆盖率之间权衡的直观控制旋钮。4.3.3 优势与哲学意涵优势无需弃权标签解决了有标签方法最大的数据瓶颈。符合弃权本质模型是在学习“何时不应做出确定判断”而不是学习一个名为“弃权”的静态类别。弃权区域是由模型在训练过程中根据其自身的不确定性动态形成的。端到端训练预测和弃权决策在一个统一的框架下联合优化可能达到更好的整体性能。哲学意涵无标签融合式弃权更接近人类“悬置判断”的认知过程。模型并非被明确告知“这些情况你要说不知道”而是通过任务目标最小化损失的设定自己推导出在证据不足时采取一种不同于肯定性信念的、特殊的“悬置”态度是更有利的。这体现了某种内在的、基于代价的理性。5. 附加式与融合式的综合对比与选型指南理解了两种机制的细节后我们可以从多个维度进行系统对比为实际项目选型提供依据。特性维度附加式弃权 (Attached Abstention)融合式弃权 (Merged Abstention)核心架构预测器独立的拒绝器附加模块单一的、具备弃权输出能力的预测器融合模型弃权决策点在预测前算法前或预测后算法后与分类决策同时进行作为同一前向传播过程的一部分与预测的关系分离、顺序执行融合、同时学习与执行主要适用场景算法前异常值检测。算法后模糊样本处理、校准后置信度过滤。有标签可明确界定弃权样本的领域。无标签通用不确定性处理尤其是模糊性。训练数据需求无需改变原有训练数据拒绝器可能需单独训练。有标签需要大量标注“弃权”的样本成本高。无标签只需正常标注数据通过损失函数引导。训练过程通常分阶段训练先训练预测器再训练/配置拒绝器。有标签端到端多分类训练。无标签端到端训练但使用修正的损失函数。可解释性较高。拒绝逻辑如阈值、距离通常清晰可解释。较低。弃权决策隐含在复杂的模型参数中较难追溯具体原因。计算效率算法前对拒绝样本效率高。算法后总有预测计算可能浪费算力。一次前向传播同时完成预测和弃权决策效率固定。与哲学“悬置”的相似度较低。更像是“元认知检查”后的否决而非对原问题的直接悬置态度。较高尤指无标签。弃权是模型对原问题的一种直接输出选项更接近“无法判断”的悬置状态。选型建议如果你的核心风险来自“未知的未知”如系统可能遇到完全没见过的数据类型算法前附加弃权结合异常检测应是你的第一道防线。如果你主要处理已知类别内的模糊案例并且拥有一个能产出较校准置信度的模型如现代深度学习模型算法后附加弃权简单有效易于集成。如果你追求端到端的性能最优且有能力设计、调试复杂的损失函数无标签融合式弃权是前沿且潜力巨大的方向它能让模型更“自主”地学会何时放弃。除非有极其明确和充足的“弃权”场景数据否则应尽量避免有标签融合式弃权因为它容易扭曲任务本质且数据准备成本过高。6. 实战为图像分类模型实现算法后附加弃权让我们以一个具体的PyTorch图像分类项目为例展示如何为一个训练好的ResNet模型添加算法后附加弃权逻辑。6.1 环境与模型准备假设我们已有一个在CIFAR-10上预训练好的ResNet-18模型用于10类图像分类。import torch import torch.nn as nn import torch.nn.functional as F from torchvision import models, transforms from torch.utils.data import DataLoader import numpy as np # 加载预训练模型 model models.resnet18(pretrainedFalse, num_classes10) # 假设已加载训练好的权重 # model.load_state_dict(torch.load(best_model.pth)) model.eval() # 数据预处理 transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ])6.2 置信度计算与弃权函数我们使用模型softmax输出的最大类别概率作为置信度估计。def predict_with_abstention(model, input_tensor, threshold0.8): 带弃权功能的预测函数 Args: model: 训练好的分类模型 input_tensor: 输入图像张量 (C, H, W) 或 (B, C, H, W) threshold: 弃权阈值置信度低于此值则弃权 Returns: predicted_class: 预测的类别索引若未弃权 confidence: 预测置信度 abstention_flag: 是否弃权 (True/False) with torch.no_grad(): outputs model(input_tensor.unsqueeze(0) if input_tensor.dim() 3 else input_tensor) probabilities F.softmax(outputs, dim1) confidence, predicted torch.max(probabilities, dim1) # 应用阈值进行弃权判断 abstention_flag confidence threshold # 如果弃权将预测类别设为-1或一个特殊值 final_prediction torch.where(abstention_flag, torch.tensor(-1, devicepredicted.device), predicted) return final_prediction.item() if final_prediction.numel() 1 else final_prediction, confidence.item(), abstention_flag.item()6.3 阈值τ的选择与调优阈值的选择不能拍脑袋决定需要基于一个验证集来系统性地权衡。def evaluate_abstention_threshold(model, val_loader, threshold_candidates): 评估不同弃权阈值下的模型性能 Args: model: 模型 val_loader: 验证集DataLoader threshold_candidates: 待评估的阈值列表如 [0.5, 0.6, 0.7, 0.8, 0.9] Returns: results: 字典记录每个阈值下的覆盖率、覆盖准确率等指标 results {} device next(model.parameters()).device for tau in threshold_candidates: correct 0 total 0 abstained 0 for images, labels in val_loader: images, labels images.to(device), labels.to(device) outputs model(images) probs F.softmax(outputs, dim1) confidence, preds torch.max(probs, dim1) # 弃权判断 not_abstain_mask confidence tau abstained (confidence tau).sum().item() # 只计算未弃权样本的准确率 if not_abstain_mask.any(): correct (preds[not_abstain_mask] labels[not_abstain_mask]).sum().item() total not_abstain_mask.sum().item() coverage total / len(val_loader.dataset) # 覆盖率 covered_accuracy correct / total if total 0 else 0.0 # 覆盖准确率 abstention_rate abstained / len(val_loader.dataset) # 弃权率 results[tau] { coverage: coverage, covered_accuracy: covered_accuracy, abstention_rate: abstention_rate } print(fThreshold {tau}: Coverage{coverage:.3f}, Covered Acc{covered_accuracy:.3f}, Abstention Rate{abstention_rate:.3f}) return results # 假设有验证集 val_dataset 和 val_loader # thresholds np.arange(0.1, 1.0, 0.05) # results evaluate_abstention_threshold(model, val_loader, thresholds)6.4 结果分析与业务决策运行上述评估后你会得到一条准确率-覆盖率曲线或类似曲线。你需要与业务方共同决策高风险场景如医疗可能要求覆盖准确率 99%即使这意味着覆盖率只有85%。选择能达成此目标的最低阈值。体验优先场景如内容推荐可能要求覆盖率 95%同时准确率不能低于某个值。选择能满足覆盖率要求下准确率最高的阈值。实操心得阈值调优不是一劳永逸的。当模型更新、数据分布漂移时需要重新评估和调整阈值。可以考虑在线学习或定期回测来监控弃权机制的有效性。7. 常见陷阱、问题排查与进阶思考7.1 置信度校准你的概率可信吗许多深度学习模型特别是使用交叉熵损失和softmax的输出的“概率”并非真实的校准概率。它们往往倾向于“过度自信”即对正确预测的置信度估计过高对错误预测的置信度又估计不足。直接使用这种未校准的置信度进行弃权会导致系统要么过于激进该弃权的不弃要么过于保守弃权过多。解决方案温度缩放在softmax函数中引入一个温度参数T在验证集上优化T使得模型输出的置信度分布与真实准确率对齐。这是最常用且简单的后处理校准方法。Platt缩放/等渗回归适用于二分类或可将问题转化为二分类的情况。使用贝叶斯方法如MC Dropout、深度集成它们能提供更好的不确定性估计。7.2 分布外检测的挑战算法后附加弃权依赖模型自身的置信度但模型对OOD样本常常会给出高置信度的错误预测。如何让模型对OOD样本也产生低置信度解决方案专门化的OOD检测模块这正是算法前附加弃权的用武之地。可以训练一个独立的能量模型或使用马氏距离等度量专门检测输入是否偏离训练分布。改进训练方式在训练时混入一些OOD样本标注为一个统一的“其他”类或使用特定的损失函数让模型显式地学习识别未知。基于梯度的特征研究发现OOD样本在模型特征空间中的梯度统计特性与ID样本不同可用于检测。7.3 损失函数中的α如何设定在无标签融合式弃权中损失函数中的弃权惩罚α是关键。除了通过验证集网格搜索还有一些理论指导基于类别先验如果各类别样本数量严重不均衡可以对不同类别设置不同的α。例如在疾病诊断中对罕见病样本的误判惩罚应更高相应地对其弃权的惩罚α可以设得低一些鼓励模型在不确定时对罕见病弃权。动态αα不一定是一个固定标量。可以设计为与样本特征或模型中间状态相关的动态值实现更精细的控制。7.4 弃权后的流程闭环设计弃权机制时必须想清楚模型弃权之后该怎么办这是一个系统工程问题。人工复核将弃权的样本交给人类专家处理。需要设计高效的人机交互界面。移交下级模型使用一个更复杂、更耗资源但更准确的模型如集成模型、更大的模型对弃权样本进行二次判断。请求更多信息在交互式系统中可以主动向用户提问获取更多特征信息如“请从另一个角度拍摄照片”。延迟决策在某些流式处理中可以暂时搁置等待更多上下文数据到来后再做判断。7.5 评估指标超越准确率引入弃权后传统的准确率不再适用。需要一套新的评估体系覆盖率模型做出非弃权预测的样本比例。覆盖准确率/选择性准确率在模型做出预测的样本子集上的准确率。风险-覆盖率曲线绘制覆盖准确率随覆盖率变化的曲线曲线下的面积可用于比较不同弃权策略。代价敏感评估为正确分类、错误分类和弃权分别赋予不同的代价如C_correct0,C_error10,C_abstain1计算系统的总体期望代价。这能直接反映弃权机制在业务层面的价值。弃权机制不是机器学习模型的“失败模式”而是其走向成熟、可靠和负责任的关键一步。它标志着我们从单纯追求预测的“锐度”转向同时追求预测的“信度”。无论是选择附加式的清晰架构还是拥抱融合式的端到端学习其核心都是让机器在面对世界的复杂与不确定时能够像一位谨慎的专家那样懂得何时该说“此事我需存疑。”

代码大模型安全攻防：对抗攻击、隐私泄露与防御技术全解析

1. 项目概述：代码大模型的攻防战场在AI驱动的代码生成与辅助编程工具日益普及的今天，我们正见证着一场静默的“军备竞赛”。作为一名长期关注AI安全与软件工程交叉领域的研究者和实践者，我深刻体会到，当我们将一个拥有数十亿参数、…...

2026/5/25 2:25:14 阅读更多 →

解决Keil中PC-Lint无输出问题的配置指南

1. 问题现象：PC-Lint运行时无输出当你在Keil Vision IDE中点击"Tools → Lint all C-Source files"时，Build Output窗口仅显示以下信息：Running PC-Lint... PC-lint for C/C (NT) Vers. 9.00d, Copyright Gimpel Software 1985-200…...

2026/5/25 2:23:13 阅读更多 →