论文**Unlearning through Knowledge Overwriting: Reversible Federated Unlearning via Selective Sparse Adapter** 方法**FUSED** 作者Zhengyi Zhong, Weidong Bao, Ji Wang, Shuai Zhang, Jingxuan Zhou, Lingjuan Lyu, Wei Yang Bryan Lim 代码https://github.com/Zhong-Zhengyi/FUSED-Code## 1. 写在前面联邦学习的目标是在不集中收集用户数据的情况下完成多方协同训练。它天然适合隐私敏感场景比如移动端建模、医疗协作、金融风控和边缘智能。但真实系统里还有一个很重要的问题模型不仅要持续学习新知识也要能够删除旧知识。比如用户要求删除个人数据恶意客户端向训练过程注入了污染数据或者某类样本由于版权、合规、安全原因不应该继续影响模型。此时系统需要让模型“忘掉”指定数据的影响这就是 **Federated Unlearning联邦遗忘**。这篇论文提出的 **FUSED**关注的是如何在联邦学习中高效、低干扰、可逆地执行遗忘操作。它的核心思路是 不直接修改原模型参数而是在关键层上训练独立的稀疏 Adapter用剩余知识去覆盖需要遗忘的知识。## 2. 联邦遗忘为什么难机器遗忘在集中式训练中已经很有挑战而在联邦学习中会更加复杂。论文指出现有联邦遗忘方法主要面临三个问题。第一**无差别遗忘**。不同客户端之间可能存在重叠知识。如果一个客户端要被遗忘传统方法可能会把其他客户端共享的知识也一起削弱导致剩余客户端性能下降。第二**遗忘不可逆**。联邦系统中的遗忘请求可能是动态变化的。某些客户端或数据一段时间后可能不再需要被遗忘。如果方法直接改动原模型参数想恢复原知识会很困难。第三**遗忘成本高**。最直接的做法是删除目标数据后从头重训模型。虽然重训通常被视为遗忘效果的上界但计算、通信和存储代价都很高不适合频繁发生遗忘请求的真实系统。FUSED 正是围绕这三个痛点展开设计减少知识干扰、支持可逆恢复、降低遗忘成本。## 3. FUSED 的核心思想FUSED 的全称可以理解为 Federated Unlearning via Selective Sparse Adapter它包含两个关键设计1. **Critical Layer Identification, CLI**识别对知识变化最敏感的关键层2. **Sparse Unlearning Adapter**只在关键层上构建并训练稀疏遗忘 Adapter。传统遗忘方法往往直接修改整个模型而 FUSED 选择冻结原模型只训练额外的 Adapter。这样带来两个好处- 原模型参数不被破坏因此遗忘操作可以通过移除 Adapter 来回滚- 只训练和传输少量稀疏参数因此计算和通信开销更低。论文把这个过程称为 **Knowledge Overwriting**也就是“知识覆盖”利用需要保留的数据训练 Adapter让剩余知识逐步覆盖待遗忘知识的影响。## 4. 方法框架FUSED 的整体流程可以分为两个阶段。### 4.1 阶段一关键层识别 CLI在 CLI 阶段服务器先进行一次联邦迭代1. 服务器将原始全局模型分发给客户端2. 客户端使用本地数据训练模型3. 客户端上传本地模型4. 服务器比较各客户端本地模型与初始全局模型在每一层上的参数差异。论文使用 Manhattan Distance 来度量每一层参数变化并按数据量对不同客户端的层差异进行聚合。参数变化越大的层被认为对客户端知识越敏感。最终服务器得到一个层敏感度排序。排序靠前的层会被选为后续遗忘阶段的关键层。这个设计很实用。因为并不是所有层都同等重要有些层对需要遗忘的知识更敏感。如果只在这些层上做遗忘可以大幅减少要更新的参数量。### 4.2 阶段二稀疏 Adapter 遗忘在确定关键层之后FUSED 会为这些层构建稀疏 Adapter。具体做法是- 原模型参数保持冻结- 只在关键层上添加稀疏参数矩阵- 客户端训练时只更新 Adapter- 服务器聚合 Adapter而不是聚合完整模型- 最终将 Adapter 与原模型对应层结合得到遗忘后的模型。在客户端遗忘场景中需要被遗忘的客户端不会参与 Adapter 训练。剩余客户端使用保留数据训练 Adapter从而让模型增强保留知识、削弱待遗忘知识。在类别遗忘和样本遗忘场景中需要遗忘的类别或样本不再参与训练剩余数据用于训练 Adapter。### 4.3 为什么说 FUSED 是可逆的FUSED 的一个重要特点是 **reversible unlearning**。原因很直接原模型参数没有被直接改写遗忘效果主要由独立 Adapter 带来。如果未来不再需要遗忘某些知识只需移除对应 Adapter就可以快速恢复原始模型记忆。这和直接重训或直接参数修改不同。直接修改模型后旧知识和新参数已经混在一起很难干净地恢复。### 4.4 为什么能降低成本FUSED 降低成本主要来自两点。第一只选择关键层。CLI 让方法聚焦在对知识变化敏感的层而不是对全模型做遗忘。第二只训练稀疏 Adapter。客户端和服务器之间传输的是稀疏 Adapter 参数而不是完整模型参数。论文实验中FUSED 的通信量明显低于多种基线。例如在 Cifar10-ResNet18 的客户端遗忘场景中完整模型通信量约为 42.73M而 FUSED 只需要约 0.98M。在 Transformer 设置中完整通信量约为 36.21MFUSED 约为 0.71M。## 5. 理论直觉什么是知识覆盖论文从任务梯度角度解释了知识覆盖。可以把原任务记为 T1保留数据对应的新训练任务记为 T2。如果两个任务的梯度方向存在冲突即梯度夹角大于 90 度那么沿着 T2 的方向训练会增加 T1 的损失从而削弱旧任务知识。FUSED 并不需要更新全部参数。它只在关键层的部分稀疏参数上训练也能实现类似的覆盖效果。简单说就是 用保留数据训练少量关键参数使待遗忘知识在模型行为上被覆盖掉。这也是 FUSED 相比普通微调更精巧的地方它不是盲目微调整个模型而是把遗忘限制在关键层和稀疏参数上。## 6. 总结FUSED 面向联邦学习中的遗忘需求提出了一种通过选择性稀疏 Adapter 实现可逆遗忘的方法。它的核心机制包括- 使用 CLI 找到对知识变化敏感的关键层- 在关键层上构建稀疏遗忘 Adapter- 冻结原模型只训练和传输 Adapter- 通过保留数据训练实现知识覆盖- 通过移除 Adapter 支持快速恢复。实验表明FUSED 在客户端遗忘、类别遗忘和样本遗忘场景中都能取得接近 Retraining 的效果同时显著减少计算和通信成本并降低对共享知识的误伤。