微软多Agent系统登顶测试微软用一套多Agent系统在AI漏洞发现的顶级基准测试上拿下第一超过Anthropic最强模型Mythos五个百分点。5月12日微软发布了代号MDASH的AI安全系统同时登顶CyberGym基准测试榜首成绩88.45%。排在它后面的是Anthropic的Mythos Preview83.1%和OpenAI的GPT - 5.581.8%。微软系统的独特之处微软自己并没有一个能与Mythos或GPT - 5.5竞争的前沿模型。微软在博客里明确表示MDASH使用的全部是市面上公开可用的模型。但它组了一套系统调度100多个专业化Agent让多个模型分工协作跑出了比任何单一模型都高的分数。微软已经用这套工具挖出了自家Windows 11系统16个高危漏洞。CyberGym榜单情况CyberGym由UC Berkeley团队开发论文发表在ICLR 2026是目前AI安全能力评估领域最权威的公开基准之一。Anthropic、OpenAI、Meta、智谱都在上面提交过成绩。测试方式是给AI一段有已知漏洞的代码和漏洞描述让它自己写出能触发漏洞的攻击代码。1507道题来自188个真实开源项目。榜单成绩由各公司自行提交基准代码公开但无独立第三方验证。多Agent系统的强大能力MDASH带来的核心启示是「系统」可以抹平甚至反超「模型」的差距。Anthropic花巨大研发投入训练出MythosOpenAI的GPT - 5.5同样是前沿模型。而微软没有这样的模型但它有一套流水线把「准备→扫描→验证→去重→证明」五个阶段拆开每个阶段用不同的Agent、不同的模型去跑。这套系统对底层模型不绑定新模型出来换个配置跑A/B测试就行前面积累的所有工程资产全部复用。这对Anthropic和OpenAI构成一种新型威胁。对ASI终局的潜在变数在前沿模型这张牌桌上真正有筹码的只有Anthropic和OpenAI。微软虽为OpenAI最大投资方和云计算合作伙伴但自己未训出过进入第一梯队的旗舰大模型。CyberGym的结果引发思考通往ASI的路径到底是一条还是两条路径一是Anthropic和OpenAI正在走的把单一模型推到极致此路径门槛极高路径二是微软用MDASH展示的不追求造出最强的单一模型转而构建一个能把现有模型能力最大化的系统。MDASH的成绩证明了路径二至少在特定领域是可行的但它不能替代路径一因为MDASH用的底层模型仍然来自路径一的公司。多Agent系统的实战意义多Agent系统作为一种范式正在从实验走向生产。MDASH团队的多位核心成员来自Team Atlanta。微软公布了16个由MDASH辅助发现的Windows漏洞其中4个是Critical级别的远程代码执行这些漏洞大多可在无需认证的情况下从网络侧触发已在5月Patch Tuesday中修复。在内部回溯测试中MDASH对Windows核心组件clfs.sys过去五年的已确认漏洞召回率达到96%tcpip.sys达到100%。微软表示以后的Patch Tuesday会越来越大同时攻击者也能用同样的技术因为MDASH用的全是公开可用的模型没有技术上的独占壁垒。MDASH对不同人群的意义MDASH验证了一个猜想在AI能力的下一阶段竞争中「围绕模型构建系统」可能和「训练更强模型」同等重要。这对模型公司Anthropic、OpenAI敲响警钟模型能力领先不能自动转化为应用层领先对平台公司谷歌、微软指出了一条差异化路径即构建最强系统但需深刻理解具体领域的工程细节对普通用户要及时打补丁否则不懂技术的人也能借助AI利用这类漏洞。MDASH目前正在进行小范围客户私测微软未公布定价和正式发布时间。