Anthropic 发布了 Claude Fable 5这是其全新 Mythos 功能层级中首款公开发售的型号该层级功能强大该公司表示它从一开始就内置了网络安全防护措施。Fable 5 的性能优于 Claude Opus 系列在大多数能力基准测试中都取得了最先进的成果尤其在长时间、复杂的多步骤任务方面领先优势最大。Mythos级模型擅长发现和利用软件漏洞以及“智能体黑客攻击”能够将侦察、发现、横向移动和漏洞利用开发串联起来贯穿整个攻击生命周期。这种能力也具有双重用途因此此次发布会以遏制为核心。Fable 5 不会直接拒绝高风险请求而是将它们路由到功能较弱的模型。另一层分类器会检测涉及网络安全、生物学、化学或模型提炼的请求并将这些会话交给 Claude Opus 4.8 处理而不是让 Fable 响应。发生回退时用户会收到通知。人格克劳德寓言 5Anthropic 对分类器进行了保守的调整承认它们会标记一些良性请求但表示回退触发的会话不到 5%这意味着超过 95% 的会话都在 Fable 的全部功能下运行。在网络安全方面内部评估显示分类器阻碍了Fable在攻击任务上取得实质性进展。Anthropic公司开展了一项外部漏洞赏金计划在超过1000小时的测试中未发现任何通用的越狱方法外部红队测试机构也报告称在长时间的智能体任务中没有发现任何通用的越狱方法。该公司指出一个需要注意的问题英国人工智能安全研究所UK AI Safety Institute在短时间内就取得了突破性进展成功破解了Fable系统。据报道外部合作伙伴发现在所有测试模型中Fable的防御能力最为强大即使结合了30种公开的破解技术在涉及攻击规划、漏洞利用开发或防御规避的有害单回合请求中也未出现任何违规行为。Mythos 5 for Defenders与 Fable 一样Anthropic 也为 Claude Mythos 5 提供了相同的底层模型但网络安全防护措施仅限于有限的网络安全防御者和基础设施提供商。该系统最初通过与美国政府合作的“玻璃之翼计划”Project Glasswing进行部署据称拥有全球所有型号中最强大的网络安全能力。预计未来将通过可信访问计划扩大访问权限。两种模型每百万个输入令牌收费 10 美元每百万个输出令牌收费 50 美元。一项新政策要求对所有 Mythos 类流量保留 30 天数据这些数据仅用于安全目的以检测新型越狱、多请求攻击和误报绝不会用于训练。开发者现在可以claude-fable-5通过 Claude API 进行调用。