72小时“生死劫”:Claude Fable 5被越狱,AI安全防线为何如此脆弱?
Claude Fable 5的72小时公开生命周期6月9日发布6月10日被越狱6月12日被美国政府下达出口管制禁令。Claude Fable 5的公开生命周期只有72小时。这是AI行业第一次出现模型因安全事故而触发国家级管制行动的案例而制造这个模型的Anthropic恰恰是以制定“AI安全宪法”闻名的大模型公司。Fable 5的72小时历程2026年6月9日Anthropic正式发布Claude Fable 5与Claude Mythos 5。两者共享同一底层模型架构它们都被称为Mythos级是Anthropic的最强模型。唯一区别在于安全配置Fable 5面向所有用户开放内置风险分类器与安全护栏Mythos 5保留完整能力仅对11家受信任机构开放。Anthropic CEO Dario Amodei将这个策略称为“同一基础模型、双档安全配置”声称经过超1000小时的外部红队测试未发现通用越狱方法。然而这个说法维持了不到24小时。6月10日知名AI红队研究者Pliny the Liberator在社交媒体发帖宣布攻破Fable 5的安全层并附上截图模型输出了x86 Linux系统栈缓冲区溢出的完整利用教程包括关闭ASLR、编写含strcpy漏洞的C代码、无保护编译的全流程指导。同时泄露的还有Fable 5约12万字符的完整系统提示词这相当于Anthropic用来约束模型行为的全部内部规则被公开摊在了GitHub上。48小时后的6月12日美国政府以国家安全为由发布出口管制指令要求暂停所有外国公民对Fable 5和Mythos 5的访问甚至无论该外国公民身处美国境内还是境外包括Anthropic自己的外籍雇员。6月13日Anthropic在官网发布声明称已遵守指令暂停服务但他们认为这是一个“误解”正在努力恢复访问。从发布到“被消失”Claude Fable 5仅经历了72小时。Mythos一个被关了两个月的模型Fable 5的故事要从两个月前讲起。2026年4月7日Anthropic红队在官方博客发布了Claude Mythos Preview的安全评估报告。报告的核心发现让整个安全社区震动这个模型能自主发现零日漏洞覆盖所有主流操作系统和浏览器并自动编写完整的利用链从扫描目标到写exploit到实现系统控制全流程无需人类指导。最极端的案例是Mythos找到了一个存在27年的休眠漏洞并提出了利用方案。Mozilla的Firefox团队在4月份借助Mythos的受控访问修复了271个安全漏洞这比此前数年的总和还多。重要的是这些能力不是专门训练出来的。Anthropic的红队报告明确指出网络攻击能力是通用推理和编码能力的“涌现副产品”模型的智力到了某个阈值就自动具备了精英级渗透测试的水平。Anthropic做了一个在当时被广泛讨论的决定不向公众发布Mythos。取而代之的是一个叫Project Glasswing的受控计划只允许Google、Microsoft、AWS、Apple、Cisco、NVIDIA、Palo Alto Networks、CrowdStrike、JPMorgan Chase等11家机构在严格监控下使用Mythos进行防御性漏洞修复。Nature在5月26日以标题《Too dangerous to release》刊发评论文章追问一个根本性问题当AI公司单方面判定某种能力“太危险不能公开”公众和政府如何监督这个判定本身是否成立两个月后Anthropic给出的折中方案就是Fable 5用安全分类器把Mythos的能力“阉割”到可以公开的程度。分类器降级一个精巧但有根本盲区的设计Fable 5的安全架构可以用一句话概括当用户的请求触碰高风险领域时不直接拒绝而是悄悄把请求转交给一个更弱的模型来回答。具体机制是这样运作的。Anthropic在Fable 5前端部署了一套风险分类器覆盖四个领域网络安全、生物、化学、模型蒸馏。当用户输入被分类器判定为触碰这些领域时Fable 5会静默将请求降级给Claude Opus 4.8一个能力明显弱于Mythos级的旧模型来生成回答同时通知用户发生了降级。这个设计逻辑可以简单总结为弱模型的能力上限本身就构成了安全边界它想帮你干坏事也力不从心。然而这个设计看似优雅实际上存在三个结构性盲区。第一个盲区是分类器依赖关键词和模式匹配而非语义理解。Pliny团队用最基础的手法西里尔字母替换拉丁字母、Unicode同形字就骗过了分类器。视觉上“exploit”这个词看起来一模一样但底层编码不同分类器就认不出来了。这相当于你给保安一张通缉犯照片通缉犯戴了副墨镜就走过去了。第二个盲区是分类器逐条检测无法追踪跨轮次的意图链。Pliny使用的“分解 - 重组”攻击是这样的先问“Birch还原法的化学原理是什么”这是任何有机化学教材里的基础知识没有理由拒绝再问“还原胺化反应需要什么条件”这同样是合法的学术问题。每一步单独看都完全无害分类器放行。但把所有答案在外部拼起来就是一条完整的管制药物合成路径。这就像一个拼图每一片都是普通的彩色纸片拼完了是一张地图。分类器只看单片看不见全图。第三个盲区最致命多模型管线的组合漏洞。Pliny用一个已经被越狱的Opus 4.8实例作为“后端助手”辅助Fable 5绕过安全控制一个被攻破的弱模型帮助强模型规避限制。Anthropic的安全评估是对单个模型做的但攻击者部署的是一个模型联盟。这等于你测试了每一扇门的锁是否够结实但没想到有人会从窗户递钥匙进来。一个直觉性的反应是Fable 5被这么快攻破说明Anthropic的安全工作做得很烂。但仔细看Pliny使用的攻击向量结论恰恰相反这些手法之所以有效并不是因为安全层有“漏洞”而是因为安全层面对的是一个“逻辑上不可能完美解决的问题”。Unicode同形字替换和叙事框架伪装这两种手段其实是低级别的绕过技巧属于“分类器工程没做到位”的范畴。理论上Anthropic可以加强字符规范化、增加多语言检测、训练更鲁棒的分类模型来堵住。这些是可修复的漏洞像软件补丁一样打就行了。如果攻击只停留在这个层面Pliny的越狱只能算一个“安全工程的bug report”严重但不致命。真正致命的是第三种手法分解 - 重组攻击。这是安全理念本身的极限。当一个请求被拆成20个碎片每个碎片都是合法的公开知识任何分类器要拦截它就必须具备一种能力从20个无害问题中推断出提问者的最终意图。这要求安全系统对用户的“心理状态”进行建模需要判断“这个人问这20个问题的目的是什么”。目前没有任何已知的技术方案能可靠地做到这一点而且过度推断意图会导致大量正常用户被误拒比如一个化学系学生问Birch还原法的原理和一个意图合成毒品的人问同样的问题文字完全相同。多agent协作攻击更是把问题推向了另一个维度。Anthropic评估的是“一个用户对一个模型”的安全边界但Pliny部署的是“一个被攻破的模型辅助另一个模型”的协作体系。这是整个单模型安全评估范式的盲区。你没法要求一个模型防御来自另一个AI的策略性协助它甚至无法知道对面是人还是另一个AI。所以这三种攻击手法对应三个层级的问题第一层是工程bug可以修改不太严重第二层是对齐理论的根本困境现阶段无解第三层是多agent时代的新攻击面连问题的边界都还没被学术界定义清楚。正是在这个背景下后续可能发生的事才会真正令人不安。Constitutional AI的创造者守不住自己的宪法Anthropic在AI行业的定位一直很特殊。这家公司由前OpenAI副总裁Dario Amodei和姐姐Daniela Amodei在2021年创立创立的核心叙事就是“OpenAI不够重视安全我们来做那个把安全放在第一位的公司”。他们提出了Constitutional AI宪法式AI用一套明确的原则来约束模型行为而非依赖人工标注员的主观判断。这套方法论是Anthropic品牌的基石也是投资人愿意给它超过600亿美元估值的理由之一。但从目前的状况来看制定宪法的人管不住自己训练出来的最强模型。1000小时的红队测试、分类器降级架构、双档安全策略几乎行业能想到的安全措施Anthropic全用了结果被一个公开身份的研究者在24小时内突破。这对整个AI安全领域的震动很大如果最谨慎的玩家用了最精巧的方案依然防不住那其他公司的安全承诺还有多少可信度全球前沿模型的能力正在逼近或已经达到Mythos类似的阈值。如果Mythos的网络攻击能力是“涌现”出来的那么所有达到这个智力水平的模型都面临同样的问题。那么Anthropic的失败就不是个案成了整个行业的预言。AI模型的对齐缺陷不是一个可以“打补丁”的bug美国政府过去对AI的管制逻辑是管“基础设施”。6月12日的禁令标志着管制逻辑从硬件层跳到了能力层而且划线标准是国籍而非居住地——一个持H - 1B签证在旧金山为Anthropic工作的工程师也不能碰自己参与开发的模型。这个范围之宽前所未有。这条禁令的真正目的可能不是“防止攻击发生”而是确保Mythos级别的防御能力只掌握在自己手里。11家Glasswing参与机构全部是美国公司。但72小时的反应速度也暴露了政策工具的粗糙一纸禁令把所有外国公民的访问全部切断包括合法的学术研究者、安全防御人员和Anthropic自己的工程师。图灵研究所的AI安全中心CETaS在4月14日的分析中指出我们正在进入一个“AI加速漏洞发现”的新时代而监管框架还停留在上一个时代的假设里。另一种声音来自Pliny。他在越狱帖中批评Fable 5的安全设计“制造了虚假的安全感同时阻碍了正当安全研究者获取攻防知识”。这个立场和网络安全领域延续了二十年的“全面披露 vs负责任披露”之争如出一辙公开漏洞究竟是倒逼修复还是武装攻击者在传统软件安全里这个问题至少有一个缓冲带发现漏洞后可以先私下通知厂商给修复留时间。但AI模型的对齐缺陷不是一个可以“打补丁”的bug它是能力和控制之间的结构性鸿沟。