CVPR2025 | 基于稀疏适应子的联邦遗忘学习

张

张建站

2026/6/10 2:43:49

10分钟阅读

论文**Unlearning through Knowledge Overwriting: Reversible Federated Unlearning via Selective Sparse Adapter** 方法**FUSED** 作者Zhengyi Zhong, Weidong Bao, Ji Wang, Shuai Zhang, Jingxuan Zhou, Lingjuan Lyu, Wei Yang Bryan Lim 代码https://github.com/Zhong-Zhengyi/FUSED-Code## 1. 写在前面联邦学习的目标是在不集中收集用户数据的情况下完成多方协同训练。它天然适合隐私敏感场景比如移动端建模、医疗协作、金融风控和边缘智能。但真实系统里还有一个很重要的问题模型不仅要持续学习新知识也要能够删除旧知识。比如用户要求删除个人数据恶意客户端向训练过程注入了污染数据或者某类样本由于版权、合规、安全原因不应该继续影响模型。此时系统需要让模型“忘掉”指定数据的影响这就是 **Federated Unlearning联邦遗忘**。这篇论文提出的 **FUSED**关注的是如何在联邦学习中高效、低干扰、可逆地执行遗忘操作。它的核心思路是不直接修改原模型参数而是在关键层上训练独立的稀疏 Adapter用剩余知识去覆盖需要遗忘的知识。## 2. 联邦遗忘为什么难机器遗忘在集中式训练中已经很有挑战而在联邦学习中会更加复杂。论文指出现有联邦遗忘方法主要面临三个问题。第一**无差别遗忘**。不同客户端之间可能存在重叠知识。如果一个客户端要被遗忘传统方法可能会把其他客户端共享的知识也一起削弱导致剩余客户端性能下降。第二**遗忘不可逆**。联邦系统中的遗忘请求可能是动态变化的。某些客户端或数据一段时间后可能不再需要被遗忘。如果方法直接改动原模型参数想恢复原知识会很困难。第三**遗忘成本高**。最直接的做法是删除目标数据后从头重训模型。虽然重训通常被视为遗忘效果的上界但计算、通信和存储代价都很高不适合频繁发生遗忘请求的真实系统。FUSED 正是围绕这三个痛点展开设计减少知识干扰、支持可逆恢复、降低遗忘成本。## 3. FUSED 的核心思想FUSED 的全称可以理解为 Federated Unlearning via Selective Sparse Adapter它包含两个关键设计1. **Critical Layer Identification, CLI**识别对知识变化最敏感的关键层2. **Sparse Unlearning Adapter**只在关键层上构建并训练稀疏遗忘 Adapter。传统遗忘方法往往直接修改整个模型而 FUSED 选择冻结原模型只训练额外的 Adapter。这样带来两个好处- 原模型参数不被破坏因此遗忘操作可以通过移除 Adapter 来回滚- 只训练和传输少量稀疏参数因此计算和通信开销更低。论文把这个过程称为 **Knowledge Overwriting**也就是“知识覆盖”利用需要保留的数据训练 Adapter让剩余知识逐步覆盖待遗忘知识的影响。## 4. 方法框架FUSED 的整体流程可以分为两个阶段。### 4.1 阶段一关键层识别 CLI在 CLI 阶段服务器先进行一次联邦迭代1. 服务器将原始全局模型分发给客户端2. 客户端使用本地数据训练模型3. 客户端上传本地模型4. 服务器比较各客户端本地模型与初始全局模型在每一层上的参数差异。论文使用 Manhattan Distance 来度量每一层参数变化并按数据量对不同客户端的层差异进行聚合。参数变化越大的层被认为对客户端知识越敏感。最终服务器得到一个层敏感度排序。排序靠前的层会被选为后续遗忘阶段的关键层。这个设计很实用。因为并不是所有层都同等重要有些层对需要遗忘的知识更敏感。如果只在这些层上做遗忘可以大幅减少要更新的参数量。### 4.2 阶段二稀疏 Adapter 遗忘在确定关键层之后FUSED 会为这些层构建稀疏 Adapter。具体做法是- 原模型参数保持冻结- 只在关键层上添加稀疏参数矩阵- 客户端训练时只更新 Adapter- 服务器聚合 Adapter而不是聚合完整模型- 最终将 Adapter 与原模型对应层结合得到遗忘后的模型。在客户端遗忘场景中需要被遗忘的客户端不会参与 Adapter 训练。剩余客户端使用保留数据训练 Adapter从而让模型增强保留知识、削弱待遗忘知识。在类别遗忘和样本遗忘场景中需要遗忘的类别或样本不再参与训练剩余数据用于训练 Adapter。### 4.3 为什么说 FUSED 是可逆的FUSED 的一个重要特点是 **reversible unlearning**。原因很直接原模型参数没有被直接改写遗忘效果主要由独立 Adapter 带来。如果未来不再需要遗忘某些知识只需移除对应 Adapter就可以快速恢复原始模型记忆。这和直接重训或直接参数修改不同。直接修改模型后旧知识和新参数已经混在一起很难干净地恢复。### 4.4 为什么能降低成本FUSED 降低成本主要来自两点。第一只选择关键层。CLI 让方法聚焦在对知识变化敏感的层而不是对全模型做遗忘。第二只训练稀疏 Adapter。客户端和服务器之间传输的是稀疏 Adapter 参数而不是完整模型参数。论文实验中FUSED 的通信量明显低于多种基线。例如在 Cifar10-ResNet18 的客户端遗忘场景中完整模型通信量约为 42.73M而 FUSED 只需要约 0.98M。在 Transformer 设置中完整通信量约为 36.21MFUSED 约为 0.71M。## 5. 理论直觉什么是知识覆盖论文从任务梯度角度解释了知识覆盖。可以把原任务记为 T1保留数据对应的新训练任务记为 T2。如果两个任务的梯度方向存在冲突即梯度夹角大于 90 度那么沿着 T2 的方向训练会增加 T1 的损失从而削弱旧任务知识。FUSED 并不需要更新全部参数。它只在关键层的部分稀疏参数上训练也能实现类似的覆盖效果。简单说就是用保留数据训练少量关键参数使待遗忘知识在模型行为上被覆盖掉。这也是 FUSED 相比普通微调更精巧的地方它不是盲目微调整个模型而是把遗忘限制在关键层和稀疏参数上。## 6. 总结FUSED 面向联邦学习中的遗忘需求提出了一种通过选择性稀疏 Adapter 实现可逆遗忘的方法。它的核心机制包括- 使用 CLI 找到对知识变化敏感的关键层- 在关键层上构建稀疏遗忘 Adapter- 冻结原模型只训练和传输 Adapter- 通过保留数据训练实现知识覆盖- 通过移除 Adapter 支持快速恢复。实验表明FUSED 在客户端遗忘、类别遗忘和样本遗忘场景中都能取得接近 Retraining 的效果同时显著减少计算和通信成本并降低对共享知识的误伤。

小红书美妆配图怎么选？用 GPT-IMAGE 生成高级感种草背景图实战

美妆和时尚好物博主常面临“背景荒”：一张精致的产品图，若配上杂乱的卧室背景或平庸的网图，种草效果会大打折扣。而购买大理石、亚克力等拍照道具，不仅费钱还占地方。2026年，通过AI模型聚合平台工具整合站点库拉调用 G…...

2026/6/10 2:42:21 阅读更多 →

《2026年度智能体行业TOP20》深度解读榜单背后，企业选型真正该看什么

市场上的智能体榜单越来越多，但一个真实的困境是：看完榜单，企业依然不知道该选谁。原因很简单——大多数榜单只告诉你谁排在前面，没告诉你为什么这个排名对你的场景有参考价值。亿欧对市场主流智能体厂商进行了多维度深度测评&…...

2026/6/10 2:40:04 阅读更多 →

通讯管理机之数源系统（一）框架

更多内容点击：边缘智联专栏一、功能概述数源系统是通讯管理机的核心数据子系统，负责对接下端采集设备，完成实时数据的采集、存储、查询和控制。主要包含以下五大功能： 功能模块说明配置加载从配置文件加载通道、设备、测点的完…...

2026/6/10 2:40:02 阅读更多 →

CSDN AI数字营销卡片配置手册（跳转权限解禁版）：官方未公开的3种合规跳转变通方案

更多请点击： https://codechina.net 第一章：CSDN AI 数字营销的引流卡片支持跳转官网、小程序链接吗？ CSDN AI 数字营销平台提供的引流卡片，是面向技术创作者与企业用户的核心转化组件，其核心能力之一即为外链跳转。目…...

2026/6/9 10:04:41 阅读更多 →

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南【免费下载链接】ArchivePasswordTestTool 利用7zip测试压缩包的功能对加密压缩包进行自动化测试密码项目地址: https://gitcode.com/gh_mirrors/ar/ArchivePasswordTestTool 你是否曾经面对一个加密…...

2026/6/10 1:59:41 阅读更多 →

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？ 【免费下载链接】sticky A sticky notes app for the linux desktop 项目地址: https://gitcode.com/gh_mirrors/stic/sticky 在Linux桌面上，你是否经常需要快速记录一闪而过的灵…...

2026/6/9 18:44:24 阅读更多 →

YOLO11部署优化：OpenVINO推理 | 在Intel CPU上利用OpenVINO异构推理加速，无需GPU也能实时检测

我在Intel i7-13700上实测，YOLO11n经过OpenVINO INT8量化后推理延迟从原始的92ms降至19ms，配合异构调度实现CPU+GPU双核并行后进一步压缩到11ms，无需独立GPU即可跑满30FPS实时检测写在前面：一个被低估的部署痛点过去两年，我在三个不同的工业视觉项目中遇到同样的困境—…...

2026/6/9 2:16:14 阅读更多 →