Qwen3 Max主榜暴跌12.9分,代码执行单日跌26.8
在赢政指数2026年6月Smoke评测中Qwen3 Max主榜得分从84.92分跌至72.02分降幅12.9分其中代码执行维度从96.30分直接跌至69.50分。单日数据拆解本次Smoke评测仅10题代码执行维度2题。Qwen3 Max代码执行得分下降26.8分材料约束从71.00分升至75.10分工程判断从55.60分升至66.70分任务表达从65.00分升至75.00分。主榜仅由代码执行与材料约束加权构成因此代码执行的剧烈下滑直接拉低整体排名。波动还是退化Smoke评测每日抽题不同单日10题样本量小随机题目难度差异可能造成分数波动。Qwen3 Max代码执行单日跌幅26.8分超出材料约束4.1分的升幅显示本次下滑集中于代码执行维度。现有数据仅覆盖两日无法区分题目抽签波动与模型真实能力变化需连续多日同类题目测试才能判断是否出现系统性退化。是否需要关注单日异常在小样本快测中属于正常范围但代码执行维度跌幅已达26.8分建议将Qwen3 Max列入次日Smoke复测名单。若连续两日代码执行得分均低于75分再启动完整长榜复测。工程判断与任务表达两项侧榜得分分别上升11.1分和10分表明模型在非代码任务上的表现未同步下滑。目前仅凭单日数据无法确认Qwen3 Max出现模型退化题目抽签波动仍是更可能的解释。12.9分的主榜跌幅源于26.8分的代码执行单题崩盘。数据来源赢政指数 (YZ Index) | Run #213 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接