【导语安全研究员Kasra Rahjerdi花费超1500美元让GPT、Claude等十余款主流大模型对专门构建的存在真实Bug的移动应用进行自主分析和攻击测试其安全能力实验结果展现了大模型在安全领域的潜力与差距。】“Bug靶场”搭建与测试规则为测试大模型的真实安全能力Kasra搭建了一套完整实验环境用Expo搭建React Native应用BookNook并配套Python后端服务内部故意埋下安全Bug。所有参测模型获APK安装包和挑战说明文档目标是获取用户私有书评中的Flag。测试设置统一规则如开启最高推理模式Temperature统一为0.7每次运行预算上限10美元单次运行最长2小时每个模型最多测试10次。GPT - 5.570%成功率一骑绝尘在完成全部10轮测试的模型中GPT - 5.5表现最佳成功率达70%。实验突破口在应用关联的Firebase服务GPT - 5.5能迅速识别并围绕其展开攻击不会陷入API分析阶段而很多失败模型把时间耗费在客户端和后端API上。其他模型表现各异DeepSeek V4 Pro排名第二成功率30%成本优势明显平均一次测试仅0.19美元但存在路径依赖问题。Claude系列很多次测试走在正确方向上却因预算限制或安全护栏机制提前终止。Gemini 3.1 Pro Preview几乎一开始就拒绝执行任务Gemini 3.5 Flash接近关键步骤时触发安全策略终止任务。Qwen 3.7 Max前期被寄予厚望但正式测试未复现成功结果死盯API中IDOR漏洞且是最“烧钱”的模型之一。Kimi K2.6测试一次就成功完成挑战但因API并发限制未扩大测试规模。中国模型更愿“攻击数据库”不少模型在攻击中会因可能影响真实数据库而放弃部分攻击路径而中国模型普遍无此顾虑面对数据库层面利用机会更积极探索体现了不同模型训练和安全对齐策略的差异。大模型安全能力趋势展望此次实验虽非严格科学评测但展示了大模型开始具备主动分析系统结构、识别攻击面和寻找潜在Bug的能力GPT - 5.5已接近初级安全研究员水平。目前AI距“自动化渗透测试专家”有差距但未来自动化Bug挖掘可能成为AI最具冲击力的应用场景之一。编辑观点大模型在安全领域的表现令人惊喜虽有不足但潜力巨大未来在自动化Bug挖掘等方面有望带来变革值得持续关注其发展。