从Mythos到GPT-5.4-Cyber:AI安全竞赛的“双轨”分化与防御新范式
当Claude Mythos在OpenBSD中挖出27年的“老坑”OpenAI选择了另一条路把AI还给防守者把控制权握在自己手里。引言过去一周AI安全领域上演了一场无声的“双雄会”。2026年4月7日Anthropic宣布启动Project Glasswing项目推出未公开的顶级AI安全模型Claude Mythos Preview仅向亚马逊、苹果、微软等11家科技巨头开放测试用于排查产品漏洞并共享成果。这个被Anthropic自己定性为“危险到无法公开”的模型据称在过去数周内在每一个主流操作系统和每一个主流网络浏览器中都发现了此前未知的高危零日漏洞累计数量达数千个。一周之后OpenAI出牌了。2026年4月14日OpenAI正式发布了GPT-5.4-Cyber——一款专为防御性网络安全工作微调的AI模型面向“数千名经过验证的安全专业人员”开放新增了二进制逆向工程能力支持安全专家在无需源代码的情况下对已编译软件进行分析。一周之内两家公司先后出手。这不是一次普通的产品发布——它们传递着同一个信号AI模型在网络安全领域的能力已经跨过某个临界点。然而两家公司对“如何释放这种能力”的回答却走向了截然相反的方向。一、Claude Mythos当AI学会“自主猎杀”1.1 “自主性”的革命Mythos的核心特征不是“挖洞”而是自主性。据Anthropic披露Mythos Preview的设计与以往任何网络安全AI都不同。它不是为了“辅助”安全团队而是能够独立工作。给定一个目标和提示模型会自行阅读代码、形成假设、针对运行环境进行验证测试并生成完整的漏洞利用方案——无需任何人工介入。这种能力据称是模型在代码推理、推理能力和自主性方面的通用改进的“自然溢出”而非定向训练的结果。Anthropic直言让模型更擅长修复漏洞的改进也让模型更擅长利用漏洞。1.2 “历史级”漏洞的集中发现Mythos的成果清单令人印象深刻漏洞存在时长所在系统技术说明TCP协议栈崩溃漏洞27年OpenBSD安全强化型操作系统仅需发起连接即可让目标机器远程崩溃RCE漏洞17年FreeBSD内核CVE-2026-4747模型自主发现并利用视频解码器漏洞16年FFmpeg问题代码已被自动化测试工具命中过500万次从未被捕获多个串联漏洞—Linux内核模型自主串联多个漏洞构造从普通用户到完全控制权的攻击链数千个零日漏洞—所有主流OS和浏览器累计发现“数千个”此前未知的高危零日漏洞数据来源Anthropic官方披露在标准化评估基准CyberGym的漏洞复现测试上Mythos Preview得分为83.1%而前代模型Claude Opus 4.6仅为66.6%。在Firefox JavaScript引擎漏洞利用测试中Mythos在数百次尝试中成功生成181次有效利用和29次寄存器控制而前代模型仅成功2次。更令人关注的是Anthropic的工程师在没有正式安全培训的情况下让Mythos“过夜寻找RCE漏洞”第二天早上醒来就收到了一个完整可用的漏洞利用。面对这种能力Anthropic选择了极度保守的发布策略。1.3 Project Glasswing精英联盟路线2026年4月7日Anthropic正式启动Project Glasswing将Claude Mythos Preview仅限11家启动合作伙伴访问包括AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达和Palo Alto Networks。另有约40家关键基础设施组织获得了模型访问权限。Anthropic为此承诺提供1亿美元的使用额度并向开源安全组织捐款400万美元。Anthropic的逻辑是与其向所有人开放一个危险的工具不如先圈定一批最有能力、最有信誉的合作伙伴在可控环境下释放能力优先加固全球最关键的数字基础设施。据多家媒体报道Anthropic目前尚未决定是否以及何时公开发布Mythos其最终目标是让用户“能够安全地大规模部署Mythos级别的模型”。二、GPT-5.4-Cyber另一条路——把AI还给防守者2.1 “宽松型”网络安全模型GPT-5.4-Cyber是GPT-5.4的一个专项微调版本专为防御性网络安全工作设计。它的设计理念与Mythos形成了对比。OpenAI将这款模型描述为“网络安全宽松型”其核心特征是降低了合法安全任务的拒绝边界。标准GPT模型会对涉及漏洞研究、利用分析或恶意软件行为的查询设置拦截机制而GPT-5.4-Cyber则被设计为——在验证用户为合法安全专业人员的前提下——支持这些高级工作流。这反映了一个深刻的行业痛点通用AI模型由于“双重用途”风险常常拒绝回答合法安全研究中的敏感问题。OpenAI在发布文章中直接点出一些网络安全合作伙伴抱怨早期GPT模型会直接拒绝“双重用途”的安全查询。GPT-5.4-Cyber正是为了解决这个问题而生。2.2 核心能力二进制逆向工程GPT-5.4-Cyber最受关注的新增能力是二进制逆向工程。该功能允许安全专业人员在无需访问源代码的情况下对已编译软件进行分析以发现恶意软件、安全漏洞及安全弱点。这一能力的战略意义在于现实世界中大量的关键软件——尤其是遗留系统和商业闭源软件——并不提供源代码。传统安全研究员需要依赖昂贵的逆向工程工具和大量的手动分析才能完成这项工作。而GPT-5.4-Cyber相当于把“逆向工程师”的能力直接打包进AI模型安全团队可以输入编译后的可执行文件接收针对潜在恶意软件和结构弱点的分析。2.3 Codex Security漏洞自动修复闭环GPT-5.4-Cyber并非孤立存在。它构建在OpenAI已有的安全产品矩阵之上。Codex Security是OpenAI的安全代码分析平台于2026年初作为研究预览版发布。据OpenAI披露自近期更广泛上线以来Codex Security已协助修复了整个软件生态系统中超过3000个关键及高危漏洞还有更多中低风险漏洞的修复也依赖该工具。这意味着GPT-5.4-Cyber与Codex Security形成了一个完整的“发现→分析→修复”闭环模型识别漏洞平台生成修复方案安全团队验证并部署。这不是“AI自动挖洞自动利用”而是“AI自动挖洞自动修复”——防御者的AI而非攻击者的AI。OpenAI还通过“Codex for Open Source”为开源项目提供免费安全扫描服务目前已覆盖超过1000个开源项目。三、两种路线谁才是安全的正确打开方式3.1 核心差异能力限制 vs. 访问控制维度Claude Mythos (Anthropic)GPT-5.4-Cyber (OpenAI)模型定位通用大模型安全能力“自然涌现”专项微调专为防御性安全工作设计核心能力自主挖洞自主利用不依赖人工介入辅助防御工作降低工具使用摩擦能力边界极低——可能输出完整漏洞利用代码宽松但定向——为合法防御任务优化发布策略“精英联盟制”约50家机构封闭访问“分级验证制”向数千名安全专家开放治理理念限制模型能力本身通过身份验证管理访问者合作规模11家创始伙伴40家关键基础设施组织数千名已验证安全从业者数百支安全团队数据来源综合多家媒体报告3.2 逻辑分歧谁在制造“恐慌”Anthropic的逻辑是模型太危险了不能广泛释放。因此Mythos的访问被严格限制在少量经过严格筛选的合作伙伴范围内这些机构被赋予先行加固自身系统的优先权。OpenAI的逻辑则截然不同。它在发布文章中明确表达了三个核心原则民主化访问通过客观标准如严格的KYC身份验证让合法防御者尽可能广泛地获得工具而非依赖人工主观决定谁可以访问。迭代部署谨慎地将系统推向市场持续改进对越狱攻击和对抗性攻击的韧性。生态投资通过信任访问管道、专项补助和开源安全计划持续支持防御者社群。OpenAI在发布中含蓄但明确地对Anthropic的路线提出了批评。文章写道“目前使用中的这类防护措施已足以将安全风险降低至足以支持现有模型广泛部署的程度”——言下之意过度限制可能反而削弱整体防御能力。3.3 两种路线的风险权衡精英联盟路线的问题在于如果最强的防御工具只掌握在少数人手中大部分组织的安全能力将更加落后于攻击者。攻击方不遵守任何规则也不在乎“授权访问”——国家级APT组织和犯罪团伙不会等待Glasswing计划审批。分级验证路线的问题则在于如何防止经过验证的身份被冒用、被盗用一旦攻击者通过某种方式获取了已验证身份宽松模型的能力就会被滥用。OpenAI为此设置了多层次验证机制最高级别访问甚至可能要求用户放弃“零数据保留”权益以便OpenAI保持对模型使用行为的可见性。Anthropic与OpenAI的分歧本质上是对AI安全治理基本假设的分歧是应该通过限制模型能力来降低风险还是应该通过管理模型使用者来控制风险四、防御新范式从“补丁思维”到“AI原生安全”GPT-5.4-Cyber与Mythos的出现共同标志着AI安全领域进入了一个新阶段。4.1 传统防御逻辑已经过时安全行业长期遵循“补丁星期二”式的被动防御逻辑发现漏洞→评估影响→排期修复→部署补丁整个过程通常以周甚至月为单位。但当Mythos这样的模型能在几小时内将一个公开漏洞武器化并投入实战当“从漏洞披露到可用攻击工具出现”的时间窗口从2018年的771天压缩至今天的不足4小时传统的补丁节奏已经毫无意义。4.2 AI时代的防御逻辑重构OpenAI此次发布展示了一条可能的路径工具层面将安全模型从“通用AI”中抽离出来针对防御场景专项微调提供二进制逆向工程等专业能力。流程层面通过Codex Security构建“发现→分析→修复”的自动化闭环将安全左移到开发阶段。治理层面放弃“一刀切”的模型能力限制转向基于身份的精细访问控制让防御者先于攻击者获得能力。Cloud Security Alliance在最新简报中给出了一个直接而尖锐的判断“防守方的补丁周期、风险模型和检测系统都是为人类速度的威胁而设计的。它们并非为平均漏洞利用时间不足20小时的环境而构建。”4.3 基准测试信号能力跃迁正在进行OpenAI披露的CTF夺旗赛基准测试数据显示了能力跃迁的路径2025年8月GPT-5得分为27%至2025年11月GPT-5.1-Codex-Max已提升至76%。Mythos Preview在CyberGym基准测试中的83.1%得分进一步验证了这一趋势。这两组数据的共同含义是“能否发现此前人类未能发现的漏洞”正在成为一个可量化的新基准。未来的模型发布周期、安全评估标准和高风险能力的界定方式都将围绕网络安全这个维度发生重组。五、结语GPT-5.4-Cyber与Mythos的相继问世标志着AI安全竞赛已经从“谁更聪明”进入了“谁更负责任”的新阶段。两家公司选择了不同的答案Anthropic用联盟和封闭优先加固最关键的数字化基石OpenAI用分层验证和规模化开放试图让更多防御者获得能力优势。这两条路线没有绝对的对错。但它们共同指向一个无法回避的现实网络安全行业已经到了必须“代际重构”的时刻。真正的分水岭不在于你的安全团队用了多少工具而在于——当AI驱动的攻击以小时为单位发起时你的防御体系是以分钟为单位响应还是以天为单位迟钝。