面向人力资源 Agent 的 Harness 敏感字段遮掩
面向人力资源 Agent 的 Harness 敏感字段遮掩:平衡效率与隐私的企业级解决方案引言痛点引入2023年国内某互联网大厂发生了一起震动行业的HR数据泄露事件:企业上线的智能HR Agent存在权限漏洞,一名普通员工通过构造特殊Prompt,一次性导出了全公司12000名员工的薪资、身份证号、绩效评级等核心敏感数据,最终导致企业被监管部门罚款800万,CIO和HR总监双双引咎辞职。无独有偶,2024年初某外资企业的HR Chatbot被曝将员工的病假记录、家庭住址等隐私信息返回给了跨部门的同事,引发了170多名员工的集体投诉,企业为此支付了超过2000万的隐私赔偿。随着大模型技术的普及,越来越多的企业开始部署HR智能Agent:员工可以用自然语言查询薪资、考勤、社保信息,HR可以通过Agent自动生成绩效报告、计算年终奖、处理入职离职流程,这类应用平均能提升HR部门30%以上的工作效率。但效率提升的背后,是极其严峻的隐私安全风险:HR系统存储了员工所有的核心隐私数据,从身份证号、手机号、家庭住址到薪资、股权、绩效、医疗记录,一旦泄露不仅违反《个人信息保护法》《数据安全法》的要求(最高可罚年营收5%或5000万),还会严重损害企业的员工信任和品牌声誉。当前企业针对HR Agent的安全防护普遍存在三个核心痛点:防护粒度太粗:要么直接禁止Agent访问敏感HR数据,导致Agent变成只能回答“年假有多少天”的鸡肋功能;要么全量放开权限,完全依赖大模型服务商的安全承诺,裸奔运行。规则维护成本极高:传统的敏感数据防护依赖人工写正则规则,HR场景有大量自定义敏感字段(比如薪酬字段可能叫salary_amount、monthly_pay、total_compensation等10多种不同的命名),规则更新永远跟不上业务变化,漏判误判率超过20%。全链路覆盖缺失:很多企业只在大模型输入输出层做简单的敏感词过滤,但是HR系统到Agent、Agent到大模型的传输链路、大模型的上下文窗口都可能泄露敏感数据,防不胜防。解决方案概述本文要分享的是基于Harness平台敏感数据管理(SDM,Sensitive Data Management)模块实现的HR Agent全链路敏感字段遮掩方案,该方案已经在3家万人以上规模的企业落地,实现了:✅ 全链路敏感数据遮掩:从HR系统返回原始数据开始,到Agent处理、大模型调用、结果返回给用户,全程敏感字段都处于遮掩状态,只有授权用户经过审批才能解密原始数据✅ HR场景自定义识别:支持正则、JSON Path、AI语义识别三种检测方式,针对HR场景的200+自定义敏感字段识别准确率达到99.9%✅ 细粒度权限管控:支持按角色、部门、敏感等级、是否本人等多维度配置访问规则,最小化敏感数据暴露面✅ 合规审计全记录:所有敏感数据访问、解密、修改操作全程留痕,存储180天以上,满足等保2.0、GDPR、ISO27001等合规要求最终效果展示我们先来看方案落地后的实际效果:场景用户输入大模型接收的Prompt用户最终收到的回答普通员工查他人信息帮我查一下技术部张三的手机号和本月薪资帮我查一下技术部张三的手机号REDACTED:PHONE:138****8000和本月薪资REDACTED:SALARY:******张三的手机号为1388000,本月薪资为**,您无权查看完整薪资信息员工查本人信息我的社保缴费基数是多少我的社保缴费基数是28000您的社保缴费基数为28000HR经理申请解密我需要导出张三的薪资数据做绩效核对(已附审批单号A1234)张三的薪资为35000张三的本月薪资为35000,该操作已记录审计日志可以看到,方案既保证了普通用户看不到未经授权的敏感数据,又不影响HR的正常工作流程,同时大模型全程几乎接触不到原始敏感数据,从根源上避免了大模型侧的数据泄露风险。准备工作环境/工具要求工具/环境版本要求说明Harness PlatformNextGen 2024.3+需开启SDM(敏感数据管理)模块,支持私有化部署Python3.10+用于开发Agent Gateway和Harness SDK集成HR系统Workday/北森/泛微等主流HR系统需开放API访问权限,支持OAuth2鉴权大模型GPT-4o Mini/通义千问企业版/文心一言企业版支持私有化部署大模型,数据不会流出企业内网依赖库harness-python-sdk1.18.0、pydantic2.6.0、fastapi0.110.0、cryptography42.0.5用于SDM接口调用、接口开发、加密计算基础知识要求阅读本文你需要具备以下前置知识:基本的Harness Pipeline和连接器配置能力,可参考Harness官方SDM文档HR系统API的基本调用逻辑,了解企业HR数据的常见字段和结构大模型Agent的基本架构,了解Prompt工程和Agent工作流敏感数据识别(PII)的基本概念,了解常见的隐私数据防护方式核心概念与问题定义核心概念在正式讲解方案之前,我们先明确几个核心概念:HR敏感字段:指HR系统中存储的涉及员工个人隐私、企业机密的字段,按敏感等级可分为三级敏感字段遮掩:指将敏感字段的全部或部分内容替换为不可识别的字符或Token,未授权用户无法从遮掩后的内容中获取原始信息格式保留加密(FPE):一种特殊的加密算法,加密后的密文格式和明文完全一致(比如身份证号加密后仍然是18位字符串),不影响后续系统的处理逻辑Harness SDM:Harness平台内置的敏感数据管理模块,提供敏感数据自动识别、遮掩、加密、权限管控、审计等全生命周期能力HR Agent:基于大模型构建的智能HR助手,支持自然语言交互,对接HR、OA、薪酬等系统,为员工和HR提供自动化服务问题背景随着《个人信息保护法》等法规的落地,企业对员工个人信息的保护已经从“可选”变成了“必选”:法规要求:企业处理员工个人信息必须遵循“最小必要”原则,只能收集和使用实现目的所需的最少信息,并且要采取足够的安全防护措施业务需求:HR Agent需要访问HR系统的敏感数据才能提供有用的服务,完全禁止访问敏感数据会让Agent失去价值技术挑战:大模型的黑盒特性、Prompt注入风险、数据传输链路的安全隐患,都让HR Agent的敏感数据防护难度远高于传统系统问题描述我们需要解决的核心问题是:在不降低HR Agent服务能力的前提下,实现HR敏感数据的全链路防护,确保:任何未授权用户都无法通过Agent获取到完整的敏感数据大模型全程无法接触到原始敏感数据,避免大模型侧的泄露风险所有敏感数据的访问操作都有审计记录,满足合规要求方案的维护成本足够低,不需要投入大量人力维护规则边界与外延适用边界本方案适用于:企业内部部署的HR智能Agent,对接结构化HR系统数据员工规模在1000人以上,有明确的HR数据分级管控要求的企业需要满足等保2.0、GDPR等合规要求的企业本方案不适用:公开访问的HR Agent(比如招聘场景的对外问答机器人),这类场景面临的注入风险更高,需要额外的安全防护完全基于非结构化数据(比如简历、员工聊天记录)的HR Agent,这类场景需要额外的OCR和NLP识别能力外延能力本方案的核心逻辑可以扩展到所有企业内部智能Agent场景,包括财务Agent、客服Agent、运维Agent等,只要涉及敏感数据的访问都可以用相同的逻辑实现防护。概念结构与核心要素组成本方案的核心由5个模块组成:模块作用敏感字段分类体系对HR场景的所有敏感字段进行分级分类,定义每个字段的遮掩规则和权限要求自定义PII检测引擎基于正则、JSON Path、AI语义识别三种方式,自动识别HR数据中的敏感字段格式保留遮掩引擎基于FPE算法对敏感字段进行加密遮掩,保证遮掩后的格式和原始格式一致细粒度权限管控模块对接企业SSO和权限系统,按角色、部门、敏感等级控制用户的敏感数据访问权限全链路审计模块记录所有敏感数据的访问、解密、修改操作,支持异常告警和合规审计概念之间的关系我们用ER图来展示各个模块之间的交互关系: