人工智能通识课:AI 安全与伦理
人工智能正在从实验室技术走向社会基础设施。它可以辅助学习、生成内容、分析数据、识别图像、编写代码、管理流程也可以进入医疗、教育、金融、交通、制造、政务和公共服务等重要场景。AI 的能力越强、应用越广其安全与伦理问题就越不能被视为附属话题。AI 安全与伦理关注的核心问题是人工智能系统不仅要“能用”还要“可靠、可控、公平、透明、尊重人的权利并对社会负责”。从更广的历史背景看人工智能被视为新一轮科技革命的重要力量。与蒸汽机、电力和计算机不同AI 不只是替代体力劳动或加速信息处理还开始进入语言生成、图像识别、医疗辅助、自动决策等认知性任务。这种变化一方面提高了生产效率另一方面也带来就业结构变化、责任边界模糊、人与智能体关系重塑等新问题。因此AI 安全与伦理讨论的不是“技术能不能做到”而是“技术应不应该这样使用”“谁应当为结果负责”“怎样让技术发展真正增进人的福祉”。图 1AI 安全与伦理在人工智能体系中的位置从全球治理趋势看AI 已经不再只是技术问题而是逐渐成为法律、政策、伦理和社会治理共同关注的问题。近年来美国国家标准与技术研究院NIST、欧盟、联合国教科文组织UNESCO、经济合作与发展组织OECD等机构和组织陆续提出了 AI 风险管理、分级监管、透明问责、隐私保护、公平性和人的监督等原则。其共同方向是既鼓励 AI 创新也要求 AI 系统在重要场景中更加安全、可信、可解释、可追责。一、为什么 AI 需要安全与伦理AI 系统与普通软件不同。传统软件通常按照明确规则运行开发者写下什么逻辑程序就执行什么逻辑。而许多 AI 系统尤其是机器学习和深度学习模型是从数据中学习规律。模型的行为不仅取决于代码也取决于训练数据、优化目标、模型结构、部署环境和用户输入。这使得 AI 系统具有三个重要特点。1、AI 的能力来自数据也可能继承数据中的问题如果训练数据存在偏见、错误、遗漏或过时信息模型可能学习并放大这些问题。例如招聘模型如果主要从历史招聘数据中学习而历史数据本身存在性别、年龄或学校背景偏见那么模型可能在新一轮筛选中继续复制这种不公平。2、AI 的输出具有不确定性许多 AI 模型不是按照固定规则给出唯一答案而是基于概率生成结果。大语言模型尤其如此它生成的是在当前上下文中概率较高的文本并不等于它一定掌握事实真相。因此模型可能生成流畅但错误的内容也可能在用户没有察觉的情况下给出误导性建议。3、AI 的影响会进入真实社会当 AI 用于学习推荐、信贷审批、简历筛选、医疗辅助、舆情分析、自动驾驶或公共管理时模型输出可能影响人的机会、权益、安全和尊严。此时AI 不再只是“工具是否好用”的问题而是涉及社会公平、法律责任和公共信任。因此AI 安全与伦理必须回答两个层面的问题1技术层面模型是否可靠、稳健、安全、可解释、可控2社会层面模型是否公平、尊重隐私、保护人的权利、避免滥用、责任清晰4、AI 伦理的基本宗旨AI 伦理的核心不是简单地反对技术发展而是为技术发展划定合理边界。它关注的是• AI 应当做什么不应当做什么• 谁应当对 AI 系统的设计、部署和使用负责• 如何让 AI 技术朝着有利于人类福祉的方向发展从这个意义上说AI 伦理既约束模型本身也约束设计者、开发者、使用者、平台、企业和政策制定者。AI 伦理通常包含两个相互配合的方向1正向引导鼓励 AI 用于医疗、教育、工业、科研、环境保护、公共服务等有益场景。2负向约束防范隐私侵犯、算法歧视、深度伪造、虚假信息、自动化伤害和技术滥用。简而言之AI 伦理的目标是让人工智能走向“可控、可信、可惠”的未来。其中• 可控指系统行为有边界风险可监测、可干预、可纠正• 可信指系统尽量做到可靠、安全、公平、透明、可解释、可追责• 可惠指技术发展应增进人的福祉而不是只服务效率、流量或利润二、AI 风险从哪里来AI 风险并不只来自“模型太强”或“技术太复杂”。在真实系统中风险往往来自多个环节的叠加数据、算法、模型、部署场景、用户行为和社会环境都会影响最终结果。图 2AI 风险来源示意图1、数据风险数据是 AI 学习的基础。数据风险主要包括• 数据来源不合法• 数据中包含隐私或敏感信息• 数据样本不均衡• 数据标注错误• 数据过时• 数据存在历史偏见• 数据质量不足却被用于高风险任务低质量数据不仅会降低模型性能还可能在招聘、金融、医疗、公共服务等场景中形成系统性误导。2、算法与模型风险模型风险主要来自模型本身的学习机制和输出方式包括• 预测错误• 对异常输入不稳定• 对恶意提示或攻击敏感• 生成虚假内容• 无法解释关键判断依据• 在不同群体上的表现差异较大• 在训练环境外表现下降算法层面还可能存在目标函数设计不当、特征选择不合理、评价指标片面等问题。例如推荐系统如果只追求点击率可能倾向于推送刺激性、极端化或误导性内容。3、场景风险同一个 AI 技术用在不同场景中风险完全不同。例如AI 推荐电影属于低风险应用AI 推荐药物剂量则属于高风险应用。一个图像识别模型用于整理相册出错影响较小用于安防执法或医疗筛查出错就可能严重影响个人权益和生命安全。4、用户行为风险AI 系统可能被误用或滥用。误用是指用户并非故意作恶但把 AI 用在不适合的场景中。例如把普通问答模型当作医学诊断工具或把未经验证的 AI 输出直接用于法律、金融和教育评价。滥用则是有意识地利用 AI 从事不当行为。例如编造虚假新闻、伪造图片和音频、生成诈骗话术、批量制造垃圾信息或绕过安全限制获取危险内容。5、社会系统风险AI 还可能带来更广泛的社会影响例如• 虚假信息传播• 深度伪造降低公众信任• 自动化决策加剧不平等• 工作岗位结构变化• 教育评价和学习诚信受到冲击• 少数大平台掌握过强技术与数据优势• 个性化推荐造成信息茧房和群体对立这些问题不能只靠模型开发者解决也需要法律、教育、行业规范、平台治理和公众素养共同参与。6、伦理风险的另一种分类从伦理治理角度也可以把 AI 风险概括为四类。第一类是技术失控风险。它指 AI 系统的能力、行为或影响超出人类预期与控制范围。当前多数 AI 系统仍依赖特定数据、任务和环境但随着模型规模扩大、多模态融合和智能体技术发展仍需要预警机制、紧急停止通道和人机协同干预等安全冗余设计。第二类是技术非正当应用。它包括误用和滥用是当下更现实、更紧迫的风险。例如将人脸识别用于非授权监控将生成式 AI 用于诈骗、深度伪造或舆论操纵。第三类是系统性应用风险。当 AI 大规模进入教育、医疗、金融、交通和公共治理等关键领域时可能带来就业结构变化、资源分配不平等、平台垄断和社会分化等问题。第四类是治理失能。AI 是复合性、高速演化的技术系统如果法律、标准、监管、企业合规和公众参与滞后就可能出现权责模糊、监管空白和事故处理困难。三、可信 AI安全与伦理的共同目标可信 AITrustworthy AI是 AI 安全与伦理的重要目标。它并不意味着模型永远不会出错而是要求 AI 系统在设计、训练、部署和使用过程中尽量做到可靠、可控、透明、公平并可追责。NIST 对可信 AI 的特征做了较系统的概括包括有效与可靠、安全、稳健与有韧性、透明与可问责、可解释与可理解、隐私增强、公平并管理有害偏见等维度。图 3可信 AI 的核心维度1、可靠性可靠性指 AI 系统在预期条件下能够稳定完成任务。例如一个语音识别系统在普通话、方言、噪声环境、不同年龄用户中都应保持基本可用而不能只在理想测试集上表现良好。2、安全性安全性指 AI 系统不会对用户、组织或社会造成不可接受的伤害。这里的安全既包括物理安全例如自动驾驶、机器人、医疗设备也包括信息安全例如模型被攻击、系统被绕过、敏感信息泄露。3、稳健性稳健性指模型在面对噪声、异常输入、分布变化或轻微扰动时仍能保持合理表现。例如图片稍微模糊、文字有错别字、用户提问方式不同模型不应立即产生严重错误。4、公平性公平性指 AI 系统不应对特定群体造成不合理歧视。公平性不是简单要求所有人结果完全相同而是要求模型不要因为性别、年龄、地域、种族、残障、经济背景等因素产生不当差别对待。5、透明性透明性指用户、开发者和监管者能够了解 AI 系统的基本用途、能力边界、数据来源、决策流程和风险限制。透明性可以分为三个层次1实现层透明性算法执行过程、输入输出关系和关键逻辑可以被检查典型方式包括白盒测试、代码审查等。2规格层透明性系统的设计目标、模型结构、训练数据、损失函数、评估指标和适用边界能够被说明。3解释层透明性系统不仅给出结果还能说明决策依据、推理路径和风险限制。对于生成式 AI还应让用户知道内容是否由 AI 生成或经过 AI 辅助。6、可解释性可解释性指 AI 系统的结果能够被人理解和检查。对于普通推荐系统解释可以是“因为你喜欢类似内容”对于医疗、金融、司法等高风险系统则需要更严格的依据说明和人工复核机制。在一些机器学习场景中也可以使用 LIME、SHAP 等方法辅助分析模型输出与特征之间的关系。但解释工具不能替代风险评估、专业判断和责任机制。7、隐私保护隐私保护要求 AI 系统在数据采集、训练、推理和存储过程中尊重个人信息权益。尤其是人脸、声音、位置、医疗记录、身份信息、教育记录和通信内容都应受到更严格保护。8、问责机制问责意味着当 AI 系统造成问题时不能把责任推给“算法自己决定”。需要明确谁设计了系统谁提供数据谁部署使用谁负责监督谁处理申诉和纠错。四、从全生命周期看 AI 治理AI 安全与伦理不能只在模型上线前检查一次而应贯穿系统全生命周期。一个 AI 系统从问题定义开始到数据采集、模型训练、评估测试、部署使用、持续监控和最终退役每个阶段都可能产生风险。NIST AI 风险管理框架的核心由 Govern、Map、Measure、Manage 四类功能组成用于帮助组织围绕 AI 风险形成共同理解、开展评估并采取管理行动。图 4AI 生命周期中的风险治理流程1、问题定义阶段首先要问清楚这个任务是否适合使用 AI是否存在更简单、更透明、更安全的方法是否涉及人的重要权益是否可能造成不公平或误导不是所有问题都应该用 AI 解决。尤其在人身安全、医疗诊断、司法决策、教育评价等高风险场景中必须谨慎评估。2、数据阶段数据阶段需要关注• 数据是否合法取得• 是否包含敏感信息• 是否需要脱敏或匿名化• 样本是否覆盖主要人群• 标注是否准确• 数据是否存在明显偏见• 是否建立数据访问权限和审计记录数据治理做不好后续模型再复杂也难以保证安全与公平。3、训练阶段训练阶段需要关注模型结构、训练目标、损失函数、超参数、训练资源和安全策略。对于大模型还要关注训练数据过滤、版权风险、有害内容过滤和模型能力评估。4、评估阶段模型不能只看平均准确率。还应评估• 不同人群上的表现差异• 极端输入下的稳健性• 对抗攻击下的安全性• 错误案例的严重程度• 是否会产生幻觉或有害输出• 是否满足业务和伦理要求5、部署阶段部署时要明确用户提示、适用范围、禁止用途、人工复核机制、反馈渠道和日志记录。高风险系统不应完全自动化决策而应保留人的监督与干预。6、监控阶段模型上线后真实环境可能发生变化。用户行为、数据分布、政策要求和社会环境都会变化。因此需要持续监控模型表现及时发现偏差、失效、滥用和安全事件。7、更新与退役阶段当模型不再适合当前任务或存在无法修复的风险时应及时更新、限制使用或退役。AI 治理不仅包括“如何上线”也包括“何时停止使用”。五、公平性、偏见与算法歧视公平性是 AI 伦理中最重要的问题之一。AI 模型看似客观因为它由数据和算法驱动但如果数据和系统设计本身包含偏见模型也可能产生不公平结果。图 5数据偏见如何影响模型结果1、偏见可能来自数据数据偏见是最常见的来源。例如某个图像识别模型如果主要用白天、晴天、清晰画面训练那么在夜晚、雨天或低光环境中可能表现较差。某个语音识别系统如果主要用标准口音训练就可能对方言、儿童声音、老年人声音识别效果较差。2、偏见可能来自标签训练数据的标签通常由人提供。人的主观判断、历史制度和文化偏见可能进入标签。例如“优秀简历”“高风险用户”“不良行为”等标签如果缺乏清晰标准模型就可能学习到隐含歧视。3、偏见可能来自目标函数模型优化的目标如果设计不当也会带来不公平。例如推荐系统只追求点击率可能更倾向推荐刺激性、极端化或误导性内容教育系统只追求分数预测可能忽视学生的成长背景和学习过程。4、算法偏差的常见类型从形成机制看算法偏差还可以进一步分为几类。1既有偏差它来自现实社会中已经存在的历史偏见。例如历史招聘数据本身偏向某些群体模型就可能把这种历史偏见学习下来。2技术偏差它来自数据处理、特征选择、模型结构或评价指标的不合理。例如样本不平衡、特征选择片面、算法缺乏上下文理解都可能导致偏差。3涌现偏差它指算法被部署到原本没有预料的场景后产生新的不公平后果。例如一个面向娱乐推荐的系统被用于招聘筛选就可能造成不合理过滤。4反馈偏差它指算法输出反过来影响现实世界使偏见不断累积。例如某地区被模型预测为高风险后获得更多巡查更多巡查又产生更多记录下一轮模型便更容易继续把该地区判为高风险。这种“数据—模型—现实行为”的闭环会形成循环偏误。5、算法歧视的典型问题算法歧视是指由于数据、算法设计或部署方式中的系统性偏差导致某些群体受到不公平对待。一个经典案例是 COMPAS 再犯风险评估系统。该系统用于辅助评估被告未来再犯风险但研究发现它在不同族群上的错误类型并不均衡。即使模型没有直接使用种族变量历史执法差异、社会结构偏见和训练数据分布也可能被间接编码进模型。这说明算法不使用敏感变量并不等于结果一定公平。公平性需要通过数据审查、分群体评估、错误分析、申诉机制和持续监控共同保障。6、公平不等于简单平均公平性不是所有群体获得完全相同结果而是要求模型的差异具有合理依据并避免无关身份因素造成不当伤害。例如在医疗筛查中不同年龄群体风险不同模型可以考虑医学上合理的年龄因素但不能因无关因素排除某些人获得服务的机会。7、如何减少偏见减少偏见通常需要多种方法配合• 检查数据来源和样本覆盖• 分群体评估模型表现• 分析错误案例是否集中在特定群体• 对敏感特征进行谨慎处理• 引入公平性指标• 提高模型开发团队的多元性• 建立申诉和人工复核机制• 在系统上线后持续监控。六、数据伦理、隐私与个人权利AI 系统往往需要大量数据而数据中可能包含个人隐私、商业秘密、科研成果和公共管理信息。数据伦理不仅是隐私保护问题也是关于权利、公平、责任和数据价值分配的问题。图 6数据伦理与隐私保护示意图1、什么是数据伦理数据伦理是指在数据的生成、收集、存储、使用、共享和销毁全过程中应遵循的价值观念和行为准则。它关注的不只是数据能否被技术处理还包括• 数据是否被合法取得• 数据主体是否知情并同意• 数据用途是否清晰• 数据是否被过度收集• 数据是否会造成歧视或伤害• 数据价值如何分配• 数据泄露后谁来负责因此数据伦理贯穿数据生命周期也贯穿 AI 系统的开发、训练、部署和使用过程。2、数据权属与数据主体权利数据权属是数据伦理的重要问题。个人、企业、平台和政府都可能参与数据的产生、收集、加工和使用因此数据归属常常并不简单。从个人权利角度看数据主体至少应关注以下权利• 知情权知道自己的数据是否被收集、用于什么目的、流向哪里• 选择权能够同意、拒绝或撤回某些数据处理行为• 访问权能够查看与自己相关的数据• 更正权能够纠正错误数据• 删除权在合理条件下要求删除相关数据• 控制权对个人数据的使用范围具有一定控制能力• 申诉权当数据被滥用并造成损害时有申诉和补救渠道在一些涉及数据交易、平台服务和数字经济的场景中还会涉及数据收益权、数据开放性和数据经济性问题。这些问题仍处在持续讨论和制度完善过程中。3、哪些数据需要特别保护以下数据通常需要更严格保护• 身份信息如姓名、身份证号、电话号码• 生物特征如人脸、指纹、声纹、虹膜• 位置信息如家庭地址、实时定位、行动轨迹• 医疗信息如病历、检查报告、诊断记录• 金融信息如账户、收入、交易记录• 教育信息如成绩、学习记录、评价报告• 通信内容如聊天记录、邮件、私密文件• 未成年人信息• 企业商业秘密和科研敏感数据4、AI 为什么容易带来隐私风险AI 隐私风险主要包括• 训练数据未经授权• 模型可能记忆部分训练样本• 用户输入被不当保存或再次用于训练• 多模态输入中包含人脸、地址、车牌等敏感内容• 模型输出可能泄露他人信息• 数据在传输、存储和调用工具时被攻击• 跨平台数据融合形成深度画像现实中个人数据的收集路径非常多包括物联网设备、智能家居、摄像头、平台型企业的数据留存、行政或商业流程中的制度性信息提交以及 Cookie、像素标签、设备指纹等互联网追踪技术。判断一项数据采集活动是否合伦理关键要看用户是否知情、是否授权、是否能够控制数据去向。5、数据生命周期中的风险数据风险不是只发生在采集阶段而是贯穿完整生命周期。1数据采集阶段主要风险是用户未知情、未授权、默认开启权限、超范围收集。2数据处理阶段主要风险是用途改变、数据滥用、算法歧视、数据被用于原本未说明的目的。3数据存储阶段主要风险是非法窃取、泄露、内部人员滥用权限。4数据交易阶段主要风险是非法买卖、跨境流动难以监管、数据流向难以追踪。5数据销毁阶段主要风险是数据未真正删除、备份长期残留、用户撤回权无法落实。因此数据治理必须覆盖采集、处理、存储、共享、交易和销毁而不能只在隐私政策中作形式化说明。6、非法数据交易与社工库数据作为一种新型生产要素具有重要经济价值。但如果缺乏规范就可能形成非法数据交易和黑灰产业链。“社工库”是非法数据交易中的典型现象通常指黑客或黑灰产组织通过攻击、泄露、撞库等方式非法收集的大规模个人数据集合可能包含账号密码、身份证号、手机号、住址、通话记录、银行流水、位置记录等敏感信息。其中• 洗库指对非法获得的数据进行清洗、整理和格式化• 撞库指利用一个平台泄露的账号密码尝试登录其他平台• 精准诈骗指利用泄露数据对特定人群实施更具针对性的欺骗治理非法数据交易需要从上游攻击工具、中游数据交易市场、下游资金流通渠道和平台安全防护等环节同时发力。7、隐私保护的基本方法常见方法包括• 数据最小化只收集完成任务所必需的数据• 脱敏处理删除或替换可识别个人身份的信息• 权限控制限制谁能访问数据• 加密存储与传输减少泄露风险• 日志审计记录数据访问和模型调用行为• 本地化处理敏感数据尽量在本地或可信环境中处理• 用户知情与同意让用户了解数据用途和风险• 差分隐私、联邦学习、同态加密等隐私增强技术在特定场景中降低数据暴露风险。8、个人使用 AI 的隐私原则个人使用 AI 工具时应避免直接输入身份证、银行卡、病历、合同原文、未公开代码、客户资料和私密聊天记录。上传图片时也要注意是否包含人脸、车牌、住址、二维码、票据编号等敏感信息。七、生成式 AI 的特殊风险生成式 AI 可以生成文本、图片、语音、视频和代码。它极大提高了内容生产效率也带来了传统 AI 系统不那么突出的风险。1、幻觉问题大语言模型和多模态大模型可能生成看似合理但实际错误的内容。这类现象通常被称为幻觉。例如• 编造不存在的论文• 错误解释法律条款• 虚构医学建议• 看错图片中的文字• 误读图表数据• 给出无法运行的代码• 把不确定信息说得非常肯定图 7大模型幻觉与事实核查流程减少幻觉不能只靠“让模型更聪明”还需要检索增强、来源引用、工具校验、人工复核和清晰的使用边界。2、虚假信息与深度伪造生成式 AI 可以快速制造逼真的文字、图片、语音和视频。如果被恶意使用可能用于诈骗、冒充他人、伪造证据、制造舆论操纵或传播虚假新闻。深度伪造尤其容易侵犯肖像权、名誉权、隐私权和人格尊严。未经同意使用他人照片、声音或视频进行生成和编辑即使没有直接牟利也可能造成严重伤害。3、开源模型与防滥用责任开源模型有助于科研创新、技术普及和生态发展但开源并不等于免责。当模型具备强大的图像生成、语音合成、代码生成或自动化能力时开发者和发布者应考虑必要的防滥用机制例如内容安全过滤、用途限制说明、模型卡、风险提示、敏感能力评估和发布前测试。这里的关键不是简单反对开源而是在开放创新与社会责任之间建立合理边界。4、版权与原创性问题生成式 AI 的训练数据和输出内容可能涉及版权。用户在商业出版、广告设计、课程材料、影视制作和软件开发中使用生成内容时应注意版权来源、授权范围和标注要求。5、学术诚信问题学生如果直接提交 AI 生成作业可能损害学习过程和评价公平。合理使用 AI 可以帮助学习、启发思路和改进表达但不应替代独立思考、资料阅读和真实写作。6、代码安全问题生成式 AI 可以辅助编程但生成代码可能存在安全漏洞、依赖错误、边界情况遗漏或性能问题。代码必须经过测试、审查和安全检查不能未经验证直接部署。7、心理健康与未成年人保护对话式 AI 可能被用户长期依赖。尤其在孤独、焦虑、抑郁或未成年人使用场景中系统需要避免误导用户、加剧情绪问题或替代真实的人际支持。面向高风险心理状态的对话系统应具备危机识别、求助引导、人工介入或转向专业支持的机制。AI 不能充当专业心理干预的替代品。八、AI 滥用与社会风险AI 的风险不仅来自模型犯错也来自人有意滥用。随着生成式 AI、自动化工具和多模态模型普及AI 滥用的门槛正在降低。图 8AI 滥用案例与伦理边界示意1、虚假信息批量生成AI 可以快速生成新闻、评论、图片和视频。如果用于制造虚假事件、操纵舆论或攻击个人声誉会损害公共信息环境。2、诈骗与身份冒充语音克隆、换脸视频和自动生成话术可能被用于诈骗。攻击者可以冒充亲友、领导、客服或机构人员诱导用户转账或泄露信息。3、网络攻击辅助AI 可以被用于生成钓鱼邮件、解释漏洞代码、自动化搜索目标或辅助攻击脚本。与此同时AI 也可用于防御例如漏洞检测、日志分析和恶意代码识别。因此关键在于使用目的、权限和控制机制。4、考试作弊与学习替代AI 可辅助学习但也可能被滥用于代写论文、代做作业、绕过考试评价。教育场景需要重新设计评价方式更重视过程性学习、口头说明、实践任务和真实能力。5、侵犯隐私与人格权未经同意使用他人照片、声音、视频进行生成或编辑可能侵犯隐私、肖像权、名誉权和人格尊严。6、自动化歧视如果组织在招聘、信贷、保险、教育筛选等场景中不加监督地使用 AI可能把历史不公平包装成“算法结果”使受影响者更难申诉。7、信息茧房与认知偏差个性化推荐可以提升用户体验但也可能让用户不断接触自己已经认同的内容逐渐陷入信息茧房。当社交媒体、新闻平台和短视频系统不断强化用户既有立场时就可能形成信息回音室和认知封闭。长此以往用户对现实的理解会变得片面社会群体之间也更容易产生对立。九、风险分级与治理原则AI 应用的风险差异很大因此治理方式也应分级。不能把所有 AI 系统都当作高风险系统也不能对高风险系统只做形式化提醒。欧盟 AI Act 明确采用基于风险的监管思路并将 AI 系统划分为不可接受风险、高风险、有限风险、最低或无风险等层级。图 9AI 风险分级治理框架1、低风险应用低风险应用通常不会直接影响个人重大权益。例如• 图片美化• 娱乐聊天• 普通知识问答• 文案润色• 个人学习辅助• 非关键推荐这类应用仍需保护隐私、避免误导但治理强度可以相对较低。2、有限风险应用有限风险应用需要重点关注透明性。例如用户应知道自己是否正在与 AI 交互内容是否由 AI 生成图像或视频是否经过 AI 编辑。常见例子包括• AI 客服• 生成式图片• 深度合成视频• 自动生成新闻摘要• AI 辅助广告内容3、高风险应用高风险应用可能影响人的安全、机会、权利或重要资源分配。例如• 医疗辅助诊断• 教育升学评价• 招聘筛选• 信贷审批• 基础设施管理• 司法辅助• 自动驾驶• 工业安全控制这类系统必须有更严格的数据治理、模型评估、日志记录、人工监督、申诉机制、第三方评估和持续监控。4、不可接受风险应用不可接受风险是指明显侵犯基本权利、严重操控人或造成重大社会伤害的 AI 应用。例如利用 AI 进行社会评分、操控脆弱人群、违法监控或进行不当生物识别分类等通常应被禁止或严格限制。5、风险分级的核心意义风险分级的意义在于让治理与风险相匹配。低风险场景鼓励创新高风险场景严格监管不可接受风险场景明确禁止。这样既能保护社会安全与个人权利也不至于让所有 AI 创新都被同样强度的规则压制。十、AI 安全技术与治理方法AI 安全与伦理不能只停留在口号上还需要具体技术、流程和制度支撑。1、数据治理数据治理包括数据来源审查、授权管理、质量检查、敏感信息处理、偏见检测、数据版本记录和跨境数据合规管理。数据治理的目标是确保模型训练和应用建立在合法、合规、可靠的数据基础上。对于涉及跨境数据流动的场景还应关注数据主权、数据本地化、跨境安全评估、跨境审查和国家安全风险。2、模型评估模型评估不应只看单一准确率而要综合考虑• 常规性能• 分群体表现• 稳健性• 安全性• 可解释性• 幻觉率• 有害输出概率• 工具调用正确性• 高风险场景错误后果3、算法安全算法安全不仅指模型不容易出错也包括系统在复杂、不确定甚至敌对环境下保持稳定运行的能力。它主要包括1性能稳定性在不同环境、不同人群、不同输入条件下保持合理表现。2抗故障能力在网络攻击、数据扰动、极端输入下不轻易崩溃。4对抗防护能力面对对抗样本、数据投毒、模型反推等攻击时能够识别和抵御风险。5数据保护能力在训练、推理、存储、调用过程中保护敏感数据。4、红队测试红队测试是指主动寻找模型或系统漏洞。测试人员会模拟攻击者、恶意用户或极端输入检查系统是否会输出危险内容、泄露信息、绕过限制或执行不当操作。对于大模型和智能体系统红队测试还应关注工具调用、权限边界、提示注入、越权访问和自动化执行风险。5、安全对齐安全对齐是指让 AI 系统的行为尽量符合人类价值、使用规则和安全边界。对于大语言模型常见方法包括监督微调、基于人类反馈的强化学习、安全规则、拒答策略、内容过滤和风险分类器。6、人类监督高风险系统应保留人的监督。人的角色不是简单地“看一眼”而应具有理解系统输出、提出质疑、覆盖模型建议、处理申诉和承担责任的能力。7、可追溯与审计AI 系统应记录关键操作例如数据版本、模型版本、输入输出、工具调用、人工干预和异常事件。这样在出现问题时才能分析原因、修复系统并明确责任。8、内容标注与水印对于 AI 生成图片、音频、视频和文本在合适场景下应进行标注让用户知道内容经过 AI 生成或编辑。内容标注和数字水印有助于维护信息透明和公众信任但它们不能单独解决所有真实性问题还需要平台治理、事实核查和法律责任配合。9、第三方评估与算法备案高风险 AI 系统不能只依赖企业自我声明还需要外部监督机制。常见治理方式包括• 第三方独立评估• 高风险算法事前认证• 算法备案制度• 透明披露机制• 事后审计• 责任追溯• 快速响应机制在公共治理、司法、金融、医疗、教育等关键领域这类机制尤其重要。10、组织治理组织层面需要建立 AI 使用规范、审批流程、风险评估机制、员工培训、事故响应和责任分工。AI 治理不是某个工程师或某个部门的任务而是技术、管理、法律、伦理和业务共同参与的过程。十一、个人、学校与组织如何负责任使用 AIAI 安全与伦理不仅是政府和企业的事情也与每个使用者有关。普通用户、学生、教师、开发者和组织管理者都需要形成基本的负责任使用意识。图 10负责任使用 AI 的基本原则1、个人使用 AI 的原则个人使用 AI 时应注意• 不输入敏感隐私• 不直接相信未经验证的事实• 不用 AI 生成欺骗性内容• 不冒充他人• 不传播未核实的 AI 生成信息• 不把 AI 建议当作专业诊断或法律意见• 在重要场景中保留人工判断AI 可以帮助我们学习、写作、整理和创造但不能替代事实核查和责任判断。2、学生使用 AI 的原则学生可以用 AI 解释概念、生成练习、改写表达、检查结构和启发思路。但不应直接让 AI 代写作业、代做实验报告或伪造学习成果。合理使用 AI 的目标应是提升理解能力而不是绕过学习过程。3、教师使用 AI 的原则教师可以用 AI 辅助备课、设计练习、生成案例、分析学生反馈和改写教材内容。但应注意• 审核生成内容准确性• 避免把学生评价完全交给 AI• 保护学生隐私• 引导学生理解 AI 的边界• 重新设计更重过程、更重表达和实践的评价方式4、开发者使用 AI 的原则开发者应关注• 数据来源是否合法• 模型输出是否经过测试• 是否提供用户提示和风险说明• 是否建立日志与监控• 是否设置权限与安全边界• 是否对高风险输出进行人工审核• 是否提供纠错和申诉机制5、组织使用 AI 的原则组织引入 AI 系统时不应只问“能否提高效率”还应问• 这个系统会影响谁• 出错后果是什么• 数据是否合规• 用户是否知情• 是否存在偏见• 是否需要人工复核• 谁对结果负责• 出现事故如何处理负责任的组织不会把 AI 当作“甩锅工具”而应把 AI 纳入明确的治理框架中。十二、AI 安全与伦理的发展趋势AI 安全与伦理不是固定不变的规则清单而会随着技术能力、应用场景和社会制度不断演化。1、从原则倡议走向制度落地早期 AI 伦理更多停留在原则层面例如公平、透明、隐私、问责。随着 AI 应用进入高风险场景治理重点正在从理念倡议转向法律法规、行业标准、审计流程和技术评估。2、从单一模型治理走向系统治理真实 AI 应用通常不是一个模型单独运行而是由数据、模型、提示词、工具调用、插件、数据库、平台接口和人工流程共同组成。因此未来治理不能只检查模型本身还要检查整个系统链条。3、从上线前评估走向持续监控模型部署后环境会变化用户会变化攻击方式也会变化。因此持续监控、反馈机制、事故响应和动态更新将越来越重要。4、从文本风险走向多模态风险随着多模态模型发展风险也从文本扩展到图片、语音、视频和行为控制。深度伪造、视觉误读、语音冒充、视频生成和机器人执行风险都需要新的治理方法。5、从国内治理走向国际协同AI 技术和应用具有跨国流动性。数据、模型、平台、用户和影响都可能跨越国界。因此AI 治理需要国际组织、政府、企业、科研机构和公众共同参与。全球治理的难点在于不同国家和地区在价值观、法律制度、产业利益和安全关切上并不完全一致。如何在尊重差异的同时形成最低限度的共同规则是未来 AI 治理的重要任务。 小结AI 安全与伦理关注的不是“能不能使用 AI”而是“如何负责任地使用 AI”。可信 AI 应尽量做到可靠、安全、公平、透明、可解释、保护隐私并可追责。面对生成式 AI、多模态模型和数据伦理新问题个人要查来源、保隐私、做复核组织要分风险、建制度、留记录、有人负责。AI 越强大越需要清晰边界与责任治理。“点赞有美意赞赏是鼓励”