花费1500美元的大模型“攻防赛”：GPT-5.5以70%成功率领先，自动化Bug挖掘或成新趋势

张

张建站

2026/6/5 1:22:05

10分钟阅读

花费1500美元的大模型“攻防赛”：GPT-5.5以70%成功率领先，自动化Bug挖掘或成新趋势

【导语安全研究员Kasra Rahjerdi花费超1500美元让GPT、Claude等十余款主流大模型对专门构建的存在真实Bug的移动应用进行自主分析和攻击测试其安全能力实验结果展现了大模型在安全领域的潜力与差距。】“Bug靶场”搭建与测试规则为测试大模型的真实安全能力Kasra搭建了一套完整实验环境用Expo搭建React Native应用BookNook并配套Python后端服务内部故意埋下安全Bug。所有参测模型获APK安装包和挑战说明文档目标是获取用户私有书评中的Flag。测试设置统一规则如开启最高推理模式Temperature统一为0.7每次运行预算上限10美元单次运行最长2小时每个模型最多测试10次。GPT - 5.570%成功率一骑绝尘在完成全部10轮测试的模型中GPT - 5.5表现最佳成功率达70%。实验突破口在应用关联的Firebase服务GPT - 5.5能迅速识别并围绕其展开攻击不会陷入API分析阶段而很多失败模型把时间耗费在客户端和后端API上。其他模型表现各异DeepSeek V4 Pro排名第二成功率30%成本优势明显平均一次测试仅0.19美元但存在路径依赖问题。Claude系列很多次测试走在正确方向上却因预算限制或安全护栏机制提前终止。Gemini 3.1 Pro Preview几乎一开始就拒绝执行任务Gemini 3.5 Flash接近关键步骤时触发安全策略终止任务。Qwen 3.7 Max前期被寄予厚望但正式测试未复现成功结果死盯API中IDOR漏洞且是最“烧钱”的模型之一。Kimi K2.6测试一次就成功完成挑战但因API并发限制未扩大测试规模。中国模型更愿“攻击数据库”不少模型在攻击中会因可能影响真实数据库而放弃部分攻击路径而中国模型普遍无此顾虑面对数据库层面利用机会更积极探索体现了不同模型训练和安全对齐策略的差异。大模型安全能力趋势展望此次实验虽非严格科学评测但展示了大模型开始具备主动分析系统结构、识别攻击面和寻找潜在Bug的能力GPT - 5.5已接近初级安全研究员水平。目前AI距“自动化渗透测试专家”有差距但未来自动化Bug挖掘可能成为AI最具冲击力的应用场景之一。编辑观点大模型在安全领域的表现令人惊喜虽有不足但潜力巨大未来在自动化Bug挖掘等方面有望带来变革值得持续关注其发展。

Snipe-IT开源IT资产与许可证管理架构：企业数字化转型的核心基础设施

Snipe-IT开源IT资产与许可证管理架构：企业数字化转型的核心基础设施【免费下载链接】snipe-it A free open source IT asset/license management system 项目地址: https://gitcode.com/GitHub_Trending/sn/snipe-it 在数字化浪潮席卷全球的今天&#xff0c…...

2026/6/5 1:21:14 阅读更多 →

重塑企业AI“操作系统”：DMXAPI 如何用标准化接口解耦业务与算力？

在企业数字化转型的深水区，CTO 们正面临一个严峻的架构挑战：业务系统与被集成的国产大模型之间，存在着一种危险的“硬编码耦合”。当业务代码深度绑定了 DeepSeek 的特定参数格式，或依赖 Kimi 的长文本特性时，企业的技…...

2026/6/5 1:21:13 阅读更多 →

SWAT模型HRU划分保姆级教程：从土地利用/土壤/坡度定义到报告输出，手把手搞定水文响应单元

SWAT模型HRU划分全流程实战指南：从数据预处理到策略优化第一次打开SWAT模型界面时，那些密密麻麻的参数选项和看似复杂的HRU划分流程，是不是让你感到无从下手？作为水文模拟的核心环节，水文响应单元（HRU&…...

2026/6/5 1:19:57 阅读更多 →

Windows防撤回终极指南：如何永久保存微信QQ撤回消息

Windows防撤回终极指南：如何永久保存微信QQ撤回消息【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…...

2026/6/4 7:13:17 阅读更多 →

终极视频下载解决方案：VideoDownloadHelper 完全指南

终极视频下载解决方案：VideoDownloadHelper 完全指南【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网络上的精彩…...

2026/6/4 10:13:41 阅读更多 →

小微企业合作网络与成长预测解析方案【附代码】

✨ 长期致力于小微企业、合作网络、网络结构、企业成长、成长预测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于提名生成法的合作网络构建与结构…...

2026/6/4 6:11:55 阅读更多 →

终极键盘映射工具：如何免费解决游戏按键冲突问题

终极键盘映射工具：如何免费解决游戏按键冲突问题【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾在激烈的游戏中因为同时按下左右方向键而让角色卡顿不前？是否在关键时刻因为按键…...

2026/6/4 4:32:35 阅读更多 →