用于弱监督组织病理图像分割的无偏激活图探索
论文题目Exploring Unbiased Activation Maps for Weakly Supervised Tissue Segmentation of Histopathological Images摘要组织病理学图像中的组织分割在计算病理学中起着至关重要的作用因为它具有预测癌症患者预后的重要潜力。目前许多弱监督语义分割(WSSS)方法都致力于利用图像级标签来实现像素级分割目的是最小化对详细标注的需求。这些方法大多依赖于从分类模型中提取的类激活映射(CAM)经常导致对象覆盖率较低。主要原因是分类模型存在很强的归纳偏差主要关注对象的区别性特征而不是非区别性特征。受此启发我们提出了一种简单而有效的方法通过利用区分特征和非区分特征来引入自监督任务并生成包含整个对象的无偏激活图(UAM)。具体地说我们的方法需要对对象类的所有空间特征进行聚类来派生语义中心。然后每个中心作为空间过滤器放大相似特征并抑制相异特征并提取高质量的伪标签(对象边界处的一些噪声)。此外我们进一步提出了一种降噪(NR)学习方法来训练分割网络向可信信号方向并减少了错误预测的影响。在两个公共组织病理学图像数据集上的综合实验结果表明该方法的性能优于目前最先进的弱监督分割方法。图1。比较来自CAM、Grad-CAM和我们的方法的激活图顺序分别为原始图像、地面真实情况、生成的伪标记以及肿瘤上皮(红色)、坏死(绿色)和肿瘤相关间质(橙色)的类激活图。它最好是彩色的。1、Introduce肿瘤微环境(TME)在促进肿瘤生长方面起着至关重要的作用[1]并显著影响癌症患者的预后和治疗结果[2]。确定TME中的各种组织类型如肿瘤上皮组织、间质组织和正常组织对于准确的癌症诊断和治疗计划至关重要因为它们在肿瘤进展中起着关键作用。[1]。因此区分和分割不同类型的组织对于TME的精确定量是至关重要的[3]。目前的组织分割标准使用组织病理学全切片图像(WSIS)提供十亿像素尺度的TME的高分辨率图像。近年来深度卷积神经网络(DCNN)在具有像素级注释的组织分割任务中表现出了优越性并取得了巨大的成功[4]。然而密集像素级注释的收集是耗时和费力的特别是对于组织病理学图像因为它们的高分辨率和不同组织之间的复杂边界。为了减少标注像素级标签的繁琐任务已经引入了各种用于组织病理图像的弱监督语义分割(WSSS)方法使用了不太精确的标签如边界框[5]、涂鸦[6]、点注释[7]和图像级标签[1]、[8]。这些方法大大减少了标注工作与像素级标注相比图像级标签所需的时间减少了95%以上[1]。其中基于图像级标签的类激活映射(CAM)[9]已经成为WSSS的流行策略。基于CAM的WSSS过程通常分三个阶段展开1)利用图像级标签训练分类模型2)通过CAM为每个类别生成伪标签以及3)利用这些伪标签训练语义分割模型就好像它们被完全标注一样。最终分割模型的有效性在很大程度上取决于CAM生成的伪标签的质量。然而CAM经常受到前景对象稀疏覆盖的影响导致大量对象像素被错误地识别为背景如图1的第一行所示其中只有几个像素以暖色突出显示。最近的研究[8]、[10]强调了CAM的一个关键局限性它源于分类模型固有的归纳偏差。这些模型倾向于优先考虑每一类的歧视性特征而不是较少的非歧视性特征。具体地说分类模型的目标不需要识别整个对象来最小化损失函数从而导致使用不完整的输入特征进行分类。在最终卷积层之后的全局平均汇集(GAP)过程中仅考虑最具区分性的特征而忽略其他特征。对于肿瘤上皮组织分类GAP可以过滤出一般的组织模式(即非区别性特征)允许模型关注特定的细胞排列和核非典型性关键(即区别性特征)以进行准确的分类。此外对于肿瘤相关的间质、坏死和淋巴细胞浸润性组织鉴别特征提供了区分不同类别的关键视觉线索(例如致密的胶原纤维、组织空洞和圆形淋巴细胞)。相比之下非区别性特征(例如正常间质、低密度区域和非恶性淋巴组织聚集物)不能为分类提供有用的信息[11]。因此从CAM生成的伪标签对于有效的分割来说是不够准确的。为了解决这个问题已经提出了几种方法[1]、[10]、[12]它们擦除区分区域以迫使网络识别每一类的更详细的区域。例如HistoSegNet[12]采用Grad-CAM[13]以及一系列后处理方法来扩大CAM的激活区。Han等人的研究成果。[1]提出了一种基于模板擦除的方法通过逐步扩大CAM的激活区域来获得高质量的伪标签。此外Transformers[14]利用其捕获远程依赖项的能力已经在WSSS中得到了利用。然而这些方法都试图基于区分特征来细化激活区域映射。在病理图像中组织边界特征通常是模糊的仅依靠区别性特征来完全捕捉组织形态会增加边界区域的不确定性[15]如图1的第二行所示。因此这些方法产生低质量的伪标签并且进一步限制了最终分割模型的性能。基于上述观察我们假设使模型能够同时关注区别性和非区别性特征可能有利于探索更完整的区域。基于这一假设我们提出了一种新的弱监督语义分割框架通过引入发现非区分对象区域的自监督任务来提高分割性能。具体地说我们的框架需要对每个类别的所有空间特征进行聚类以获得语义中心然后将每个中心顺序应用到特征图块上以产生我们的UAM并生成高质量的伪标签。此外针对语义分割中像素级伪标签不准确的问题进一步提出了一种降噪(NR)学习方法来优化训练过程。具体地说我们的方法利用置信度图作为权重自适应地计算交叉熵损失并鼓励网络将可信的监督信号优先于噪声监督信号。我们在两个弱监督组织病理学图像分割基准LUAD-OrganoSeg[1]和BCS-WSSS[16]上对我们提出的方法进行了评估。广泛的实验和烧蚀研究表明我们提出的方法优于最先进的WSSS和其他基于CAM的方法。与全监督模型相比我们的方法具有相当的定量和定性结果。总而言之我们的主要贡献有三个方面。提出了一种有效的具有图像级标签的弱监督组织分割方法降低了标注代价。通过实现一个专注于发现对象的非区分部分的自我监督任务我们的方法显著地增强了对整个对象的伪标签覆盖的全面性。我们提出了降噪学习来改进噪声伪标签的分割引入置信度加权来强调可靠的伪标签并使网络能够专注于可信的监督信号而不是噪声的监督信号。在两个公共组织病理学图像数据集上的实验结果表明我们提出的方法优于最先进的WSSS方法。2、Related Works在这一部分中我们回顾了使用图像级标签的弱监督语义分割方法涵盖了自然图像和组织病理图像。此外我们还探讨了噪声标签学习的最新进展。A.弱监督语义切分通常弱监督分割方法根据其弱标注的类型分为三类图像级标签[1]、[8]、涂鸦[6]和点[7]。在这些标签中图像级标签是最容易获得的因此受到了极大的关注。自从CAM[9]被引入以来已经发展了许多弱监督语义分割(WSSS)方法主要集中在解决CAM中的边界歧义问题。例如SCCAM[17]通过在特征级别上聚类将对象划分为子类别并使用此子类别信息训练分类网络从而迫使网络学习更好的边界。此外由于转换器能够捕获全局和长范围依赖关系[14]、[18]因此已被用于单级弱监督语义分割。然而重要的是要注意上述所有方法都是为自然图像设计的。由于组织病理学图像的同质性较高直接应用这些方法往往会导致效果不理想。组织病理学图像的精细注释需要专业知识并在获取过程中构成重大挑战。一些学者试图将基于CAM的方法集成到组织病理学图像的WSSS中。例如OrganoSegNet[12]使用Grad-CAM[13]以及一系列专门设计的用于组织病理学图像分割的后处理。Han等人的研究成果。[1]介绍了一种基于擦除的方法该方法逐步扩大关注范围以获取丰富的伪标签内容。张某等人。[19]利用Transformer对整个组织病理图像中的远程依赖关系进行建模增强了CAM识别更完整区域的能力。此外Zhang et al.[20]倡导将语言知识融入WSSS为目标结构本地化提供可靠的指导。Li等人。[21]利用置信度损失去除伪标签中的噪声只包含有信心的像素标签进行分割训练。然而这些改进的变种在使用区别性特征捕获完整组织方面仍然遇到挑战。主要的局限性在于组织病理学组织的边界和局部内容不能仅通过区别性特征来完全捕捉。因此由这些方法生成的伪标签可能缺乏精确地描绘完整目标区域的精度。相反我们的方法利用非区分特征来生成具有增强的完整对象覆盖率的CAM。B.自监督学习近年来自监督方法挖掘潜在信息并构建监督信号为缩小完全监督语义分割和弱监督语义分割之间的监督差距提供了一种很有前途的解决方案。Wang等人。[22]对各种变换后的CAM图像进行一致性正则化实现自监督学习。Edam[23]提出了一种后处理方法将显著图中的置信度区域整合到CAM中。Chang等人。[17]引入发现子类别的自我监督任务从而提供额外的监督以增强特征表示。Chen等人[24]提出了一种自监督的特定于图像的原型探测方法来获取完整的区域。此外Lei等人也提出了自己的观点。[25]在一次学习过程中通过在单个图像中找到班级中心点来传播涂鸦。然而这些方法可以动态地生成单个原型来表示特定的类导致不稳定。与已有方法相比该方法充分考虑了类原型的多样性引入了稳定化和多样性的原型来发现完整的区域并构造了一种自监督的方式来增强特征表示的能力。3、Method在这一部分中我们概述了我们的弱监督语义分割方法重点是生成无偏激活图和实现准确的语义分割。我们的方法如图2所示分三个主要阶段展开。最初我们采用训练分类网络的标准实践使用CAM技术[9]来捕获初始对象响应尽管其限于区分部分(见小节。III-A)。为了解决这个问题我们的第二阶段引入了一个自我监督的任务旨在产生更有效地包围整个对象的无偏伪标签(参见小节。III-B)。最后阶段涉及使用这些无偏伪标签训练DCNN进行语义分割并辅之以降噪(NR)损失策略(见小节III-C)。在以下各节中我们将详细介绍每个阶段。A.多类标签分类由于处理高分辨率组织病理学图像的计算能力的限制一种被广泛采用的方法是将整个切片图像(WSIS)裁剪成大量较小的斑块图像。通常从WSIS裁剪的补丁图像通常包含N1个类别N个前景类别(例如肺癌中的肿瘤上皮、肿瘤相关间质、坏死和淋巴细胞)和一个背景类别。这为每个补丁产生了潜在的2N1个不同的标签。然而传统的单标签分类网络只能为每个斑块分配一个预测忽略了斑块内多个组织区域的多样性和共存。相反多标签分类网络可以灵活地处理同一图像内多个组织区域的共存这为每种组织类型提供了独立的预测。因此我们利用多标签分类网络来生成CAM。为了简化这个过程我们采用了一个二进制向量y∈{01}N1其中每个元素Yn表示补丁中是否存在类n。如图2(A)所示我们利用具有标准分类网络ResNet-38[26]的CAM[9]技术。该网络处理输入面片x以产生特征映射f(X)∈RH×W×C其中C表示通道数H和W分别表示高度和宽度。我们使用多标签软边际损失[1]进行训练并为每个类别生成CAM如下所述其中Wn是类别n的分类器权重。B.生成无偏伪标签在多标签分类过程中为了保证分类性能分类器只输入区分特征而非区分特征被间隙层剔除。这一原则使得分类器的权重大大偏向于区分特征导致前景的非区分特征被识别为背景。我们假设使模型能够同时关注歧视性和非歧视性特征可以帮助探索更完整的区域。基于这一假设我们提出了一种自监督的特征表示优化策略旨在通过同时考虑区分特征和非区分特征来获得无偏的伪标签。具体地说我们利用聚类方法获得原始空间特征的语义中心来表示每一类的区分特征。然后基于这些语义中心对原始特征进行空间滤波将非区分特征聚合到前景区域生成更准确的伪标签。图2(B)描述了该方法的过程主要分为三个阶段1)聚类语义中心2)选择中心3)生成无偏伪标签。在接下来的部分中我们将对每个阶段进行详细描述。1)聚类语义中心提出用语义中心来表示每类的特征分布从而能够捕捉到更完整的区域。与少镜头分割中的中心表示不同WSSS中没有像素级掩模。为了探索表征特征分布的语义中心我们设计了一个高效的两步流水线。第一步提供分类的前景和背景集合第二步将这些集合聚集在一个综合的特征空间上以实现准确的类表示。首先给定一个图像样本x对于每个类别我们基于生成的CAM在空间上将特征块f(X)分成两个集合前景的F和背景的B其中f(X)ij∈Rc表示位置(ij)处的空间特征而τ是用于从CAMn(X)生成0-1掩码的阈值。F包含被识别为前景的空间特征而B包含被分类为背景的空间特征。对于每一类为了简单起见我们将所有样本上的前景特征合并到集合F中并类似地将背景特征合并到集合B中以省略类下标。然后我们将K-均值聚类应用于F和B旨在识别每个集合中的K个聚类中心其中K是预定义的超参数。值得注意的是对于每个前景类(例如肿瘤上皮组织)背景可以不仅包括空白区域而且可以包括各种类型的组织诸如肿瘤相关间质、坏死组织或炎症区域。因此我们使用K个聚类中心来分别表示每个前景类及其对应的背景类以确保完全捕获所有特征。前景的结果簇中心表示为F{F1···FK}背景的结果簇中心表示为B{B1···BK}。这个过程有效地将相似的特征组合在一起便于区分特定类别图像区域的前景和背景中的重要模式。2)选择中心由于CAM中的特征偏向表示背景特征有可能被错误地分类到前景集合F.因此所获得的语义中心并不完全可靠。为了缓解这个问题引入一个‘评估者’对于确定集群中心作为质心的适宜性是至关重要的。一种实用的解决方案利用分类器的权重Wn来充当这个自动评估器。该方法通过应用Wn来计算F内每个前景集群中心Fi的预测分数使得能够更有洞察力地选择相关特征并提高所生成的伪标签的总体精度其中wj表示分类器的第j类权重。随后我们选择置信度较高的中心特别是其中zif为阈值的中心通常设置为较高的值如0.9.所选中心表示为ˆFFˆ1···ˆFˆKF。直观地这种具有自信预测的中心被认为是前景类的核心语义特征或质心的代表从而确保在分割过程中只强调最相关的特征。在准备使用这些前景质心生成无偏激活图(UAM)的过程中我们的方法有意地保留了非区分特征同时主动抑制了强背景特征或假阳性。这种平衡是通过以类似于但与我们处理前景质心的方式相反的方式来处理背景质心来实现的。具体地说对于集合B内的每个背景集群中心Bi我们采用与用于前景中心Fi相同的评估策略计算预测分数。这种双重方法确保了前景和背景之间的细微差别通过突出相关特征和最大限度地减少来自强但不相关的背景信号的干扰提高了生成的UAM的准确性和可靠性。一个经过良好校准的模型经过精确的类别标签训练预计将产生对背景特征的低预测分数表明它们与目标类别无关。因此我们选择那些预测分数zi低于阈值µb(通常设置在0.9左右)的中心并将这些中心指定为BˆBˆ1···ˆBˆKb。需要注意的是我们的方法不会对超参数µf和µb的值过于敏感只要它们在合理的范围内。这一点的经验验证载于第五至B.4节。3)生成无偏伪标签每个质心代表一个视觉模式其中Fi中的对应类相关模式Bi中的对应背景相关模式。例如在肿瘤上皮组织分割的背景下前景质心可能捕获诸如肿瘤上皮组织特有的乳头状结构、微乳头状结构或腺泡结构等结构模式。相比之下背景质心可以识别非肿瘤特征如同质性或树突状结构通常见于坏死性或淋巴细胞性背景。为了使模型能够同时关注区分特征和非区分特征我们基于语义原型对原始特征进行空间过滤。该方法将非区分特征聚合到前景区域中目的是生成无偏伪标签。具体地说每个质心都起到了空间过滤器的作用增强了与自身相似的特征而削弱了不同的特征。对于每个质心我们在特征图块f(X)上的所有空间位置上滑动它计算它与每个位置上的空间特征的余弦相似度。最终这将产生质心和空间特征之间的余弦相似图。在计算了所有相似图(通过滑动所有质心来实现)之后我们以以下方式聚合它们其中n表示类的索引i表示第n类的质心集合Fˆ或Bˆ的索引。函数sim()表示余弦相似度。由于sim()值始终落在[−11]的范围内因此fsn和bsn贴图上的每个像素都有一个规格化值这意味着fsn和bsn是规格化的。直观地FSN突出显示输入图像中与第n个质心相关的类区域而BSN强调背景区域。前者需要保留而后者(例如与背景特征高度相关的像素)应该被移除。因此我们可以将UAM制定如下我们使用线性内插法对归一化的UAM(X)进行上采样从而确保其大小与输入图像的大小一致。注意最终激活映射UAm(X)∈RH×W×N具有N个通道每个通道对应于前景类。然而在分割任务中有N1个类其中包括一个额外的背景类。为了将UAM(X)转换为用于分割的伪标签Y(X)其中0表示背景[1···N1]表示前景类我们首先使用颜色阈值方法[1]将输入图像的白色区域识别为背景类。因此获得二元背景掩码MBG∈01H×W×1其中0和1分别表示背景区域和前景区域。然后我们对UAM(X)应用argmax运算并将每个值递增1以确保其值落在[1N1]的范围内。最后将结果乘以二元前景掩码MBG将伪标签Y(X)中的背景区域设置为0C.利用伪标签进行分割WSSS的主要目标是利用高质量的伪标记来分割组织就像在完全监督的条件下一样。我们使用带有ResNet-38[26]主干的DeepLabV3[27]作为基本的分割框架省略了DenseCRF用于后处理。值得强调的是ResNet-38权重在分类阶段进行了预训练。在接收到输入图像x及其对应的无偏伪标签Y(X)时我们继续从倒数第二层提取特征地图。然后通过Gumbel Softmax估计器对该特征图进行处理产生N1维概率图P。与Softmax估计器相比Gumbel Softmax估值器通过引入重新参数化技巧来促进概率图中更极化的分布[28]这对于训练分段网络是有益的。然而WSSS面临着噪声标签的挑战尤其是在组织病理学图像分割中。非优势组织的标记如坏死和淋巴细胞经常被优势组织的标记模糊导致UAM中象素的表达不足从而降低了对这些类别存在的置信度。这种情况增加了为非主要类别生成低于平均水平的伪标签的可能性通过适合于标签噪声来提高假阳性率。为了减少噪声标签的影响降低误检率我们引入了一种降噪(NR)损失LNR。该方法通过应用置信度来调整传统的二值交叉熵损失旨在利用更可靠和更干净的监督。为了实现这种方法我们首先计算UAM中每个前景类的置信度映射CMN∈RH×W如下所示在那里我代表第i个前台班。对于背景类我们使用1−MBG来计算置信度图CMBG。然后将前景类和背景类的置信度图连接起来形成用于调整二进制交叉熵损失的统一方案在该公式中CMN动态调整第n类(包括背景类)的损失Yn表示第n类是否存在于补丁中Pn表示预测的概率。这种加权损失机制的目的是将模型的训练重点细化到类识别置信度较高的图像段。它的设计是为了减轻噪声标签的影响并通过强调对更可靠的标签区域的训练来潜在地降低假阳性率从而在最小化错误标签数据的影响的同时提高模型在识别优势类和非优势类方面的性能。4、DATASETS AND IMPLEMENTATION DETAILSA.数据集1)LUAD-OrganoSeg公共弱监督组织语义分割数据集LUAD-OrganoSeg[1]包括广东省人民医院的29例患者和TCGA的20例肺腺癌患者。数据集提供商已将WSIS裁剪成17,285个斑块目标放大倍数为10倍斑块大小为224×224。对于弱监督分割任务三位病理学家注释了四种前景组织类型肿瘤上皮(TE)、肿瘤相关间质(TAS)、坏死(NEC)和淋巴细胞(LYM)其中一块可能包含一种以上类型的前景组织。数据集被划分为训练集(16,678块图像级注释)、验证集(300块像素级注释)和测试集(307块像素级注释)。2)BCS-WSSS我们使用BCSSWSSS[16]数据集将我们的弱监督方法与全监督方法进行了比较旨在评估我们所提出的模型的有效性。该数据集包含151个感兴趣区域(ROI)这些ROI来自151个HE染色的乳腺癌整张幻灯片图像为每个ROI提供像素级注释。注释包括五种组织类型肿瘤(TUM)、间质(STR)、淋巴细胞浸润性(LYM)、坏死性(NEC)和其他(OTR)。根据这些ROI数据集提供者通过裁剪和应用语义分割掩码来生成31,826个补丁以创建One-Hot编码矢量。然后将这些补丁分配到具有23,422个补丁(图像级注释)的训练集、具有3,418个补丁(像素级注释)的验证集、以及包括4,986个补丁(像素级注释)的测试集。B.实施细节我们的方法是在由NVIDIA RTX Titan GPU支持的Ubuntu系统上用PyTorch实现的。我们分别使用ResNet-38[26]和DeepLabV3[27]作为分类和分割的骨架。在分类阶段图像块以224×224像素的分辨率进行处理批次大小为20。训练持续了20个纪元(LUAD-HistoSeg数据集)和40个纪元(BCS-WSSS数据集)初始学习率为1E2通过多项式衰减策略进行调整。在伪标签生成阶段我们重用了分类模型的权重将阈值τ设置为LUAD-HISTIOSEG的0.25%和BCSSWSS的0.4%。对于LUAD-HistoSeg集群参数K被选择为10对于BCS-WSSS集群参数K被选择为12其他超参数(µf和µb)根据验证性能被优化为0.9。在分割过程中我们将训练周期保持在20并将两个数据集的学习率设置为7E-2而不限制图像分辨率。应用了数据增强技术如随机重新缩放、裁剪、垂直翻转、高斯模糊和归一化。我们使用每个类别的交集(IOU)、平均IOU(MIUU)和频率加权IOU(FwIoU)来评估模型的性能。5、Experiments在这一部分中我们进行了一系列实验以全面评估我们提出的模型在仅使用图像级标注实现语义分割方面的有效性。第五至A节用最先进的方法进行了定量和定性比较。随后我们在V-B小节中进行消融研究以评估我们提议的方法的有效性。A.比较最先进的方法1)与伪标签生成方法的比较为了评价生成的伪标签的质量我们与几种典型的基于伪标签生成的方法进行了比较包括CAM[9]、Grad-CAM[12]、SC-CAM[17]、TransWS[19]、MLP[1]、SIPE[24]Hamil[15]和TPRO[20]。定量和定性结果如表一所示。表一比较了我们的伪标记物与以前方法产生的伪标记物的质量。请注意TPRO是唯一一种使用多通道信息(语言和图像信息)生成伪标签的方法。对于其他方法我们使用分类模型Restnet-38[26]从输入图像生成伪标签。具体地说与基准CAM相比我们的方法在所有指标上都有显著的提高例如在LUAD-HistoSeg上MIUU从70.44%提高到76.24%在BCSSWSSS上从56.52%提高到68.11%。同时我们的方法在LUAD-OrganoSeg上以1.30%(74.94%比76.24%)的性能提升了次好的TPRO方法在BCS-WSSS上以3.78%(64.33%比68.11%)的性能提升了性能。此外对于所有类别的伪标签生成我们的方法也取得了最好的性能。值得注意的是所有这些竞争方法都没有考虑目标的非区分特征这通常导致在伪标签生成中对前景目标的覆盖率较低。2)与WSSS方法的比较为了验证我们的方法的有效性我们用我们生成的伪标签训练了一个分割模型并将它的性能与已有的WSSS方法进行了比较StanoSegNet[12]、TransWS[19]、OEEM[21]、MLP[1]、Hamil[15]和TPRO[20]。所有方法都使用DeepLabV3[27]作为其分割框架。基线方法包括使用CAM衍生的伪标签来训练分割模型。请注意OEM、HAMIL、MLP和我们的方法应用了不同的标签降噪策略而其他方法使用的是二进制交叉熵损失。表II中给出的定量结果显示以前方法中的伪标签显示出相当大的噪声对分割精度产生了不利影响。在LUAD-HistoSeg数据集上OEEM、MLP、HAMIL和TPRO显示出比基线略有改善分别增长了12.12%、14.33%、13.79%和17.5%。我们的方法显著优于这些方法在两个数据集上将MIU值分别提高到78.31%和70.88%分别比基线高19.01%和24.64%。这些数字突显了我们方法的卓越性能和最先进的地位。我们还通过分析LUAD-OrganoSeg上每个类别的IOU分布来评估我们的方法与以前的方法相比的稳定性。稳定性由IOU分布中较高的平均值和较低的标准差表示在小提琴曲线图中直观地表示(图4)。我们的方法增强了跨类的稳定性和一致性在性能可靠性方面超过了其他方法。3)定性比较图3展示了两个数据集上不同模型的定性结果其中我们的模型在描绘更准确的组织边界方面优于以前的研究。这一改进源于解决了CAM的一个基本局限性该局限性倾向于关注区别性特征而使得非区别性特征较少被代表。正如在黑色矩形中突出显示的那样由于这一限制传统方法不能捕获精确的边界。我们的方法通过引入无偏激活图有效地抑制了最具区分性的区域促使神经网络利用更广泛的图像特征。这一策略调整大大提高了弱监督语义分割在组织病理学图像中的性能。此外定性分析证实了在分割阶段引入伪监督的重要性这对于减少分类过程中引入的噪声起着至关重要的作用。B.消融研究1)与完全监督的比较在使用为组织语义分割提供像素级注释的BCS-WSSS数据集的实验中我们将我们的伪监督方法与完全监督方法进行了比较。这两个模型都使用了DeepLab V3架构并针对相同数量的纪元进行了培训以保持可比性。表III中详细的结果显示我们的伪监督模型在所有组织类型(包括不太常见的组织类型)上实现了与完全监督模型的近乎等同性能差异低于2%。图5所示的定性分析表明伪监督模型的分割结果实际上与完全监督方法的分割结果相当。尽管这两个模型都显示出与人工注释高度一致但在组织类别模糊的区域划定平滑边界时遇到了困难。这一比较强调了伪监督在语义分割任务中接近完全监督的精度的潜力为病理学家提供了大量的注释工作量并为优化组织病理学分析中的资源效率指明了一个有前途的方向。2)对比基础模型近年来在海量数据集上训练的基础模型如Segment Anything Model(SAM)[29]由于其强大的泛化能力大大简化了图像分割过程使其在不可见图像和对象上具有优异的性能。我们使用SAM代替CAM来生成伪标签并将其与UAM进行比较。定量和定性结果如表IV和图6所示。比较表明我们的方法优于SAM。我们分析了SAM性能较差的原因是SAM可能仍然需要针对特定的组织病理学分析领域进行微调或调整。然而在WSSS中由于缺少像素级标签SAM无法进行微调导致其性能不足。3)关键成分的贡献我们在LUAD-OrganoSeg数据集上的方法评估强调了无偏激活图(UAM)和降噪损失LNR的关键作用。如表五所示仅实施UAM就导致了所有组织类型的显著增强反映在FwIoU和MIEU指标中分别比基线增加了16.8%和16.57%。图1示出了UAM在生成确保全面的对象表示同时最小化背景噪声的优良伪标签方面的有效性。加入降噪后的LNR进一步将模型的精度提高了2.44%显示了这些分量的相加效应。总而言之UAM通过提高标签质量为准确分割提供了坚实的基础而LNR优化了这些标签的使用突出了它们对我们方法卓越性能的协同影响。4)超参数敏感性分析在图7中我们给出了在LUAD-StanoSeg和BCS-WSSS数据集上通过在分割阶段整合UAM所实现的生成的无偏伪标签的质量(MIUU)。通过调整几个关键参数的值来进行超参数敏感性分析(A)用于区分前景和背景特征的阈值τ(B)K-Means聚类算法中使用的聚类数K以及(C)和(D)分别用于选择与前景和背景相关联的质心的阈值µf和µb。图7(A)表示在LUAD-HIGROOSEG和BCSSS-WSSS数据集上的τ的最佳值分别为0.25和0.4。微小的调整不会显著影响结果例如在图7(B)中将τ增加到0.35时UAM的降幅小于1。在图7(B)中当K设置为10和12时UAM的最佳MIU值分别为75.87%和69.56%并且当K增加到15时UAM的最优MIU值仅下降1.1个百分点。图7(C)和(D)表明µf和µb的最佳值均设置为0.9。平缓的曲线表明UAM对µf和µb相对不敏感。这归因于分类模型的特点分类模型在WSSS的初始阶段进行训练以产生概率接近0或1的过度自信的预测。因此为这些不同的值设置阈值(µf和µb)非常简单。6、Discussion我们创新的无偏激活图(UAM)技术引入了一种通过聚类局部质心来计算热图的方法显著提高了分割任务的伪标签质量。如表V和图1所示UAM实现了优于传统CAM的边界划定和本地化而不需要额外的培训。它在理论上是通用的能够与各种基于CAM的WSSS框架和潜在的其他特征提取程序集成标志着分割方法的重大进步。此外我们的降噪学习策略进一步提高了分割性能。请注意这种方法不需要额外的信息只是最大限度地利用了UAM中的信息。该技术可以应用于病理图像处理中存在噪声标签的各种场景包括半监督学习[30]和无监督学习[31]。尽管我们的方法具有优势但我们的方法也有局限性指出了令人兴奋的未来方向1)视觉转换器[19]的探索在图像分类中显示了良好的结果可以进一步提高我们方法的效率超过基于DCNN的模型。2)解决了在组织病理图像中选择高质量伪标记的挑战在组织病理图像中传统的K-均值可能由于组织区域完整性问题而步履蹒跚通过考虑用于更准确的中心选择的分层聚类[32]。3)研究降维如主成分分析(PCA)[33]以提高余弦相似性对高维特征的效用潜在地提高整体性能。4)构建了一种通用的组织病理图像弱监督语义分割方法并以肺癌和乳腺癌为例进行了验证。在未来的研究中这种方法可以扩展到其他癌症和组织类型的组织病理图像。这些见解强调了我们的方法对该领域的贡献以及它在组织病理图像分割方面未来发展的广泛潜力。