传统模型评测遇挑战,推理预算应成人工智能评测核心参数!
传统模型评测面临新挑战随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务传统的模型评测方式正面临新挑战。长期以来模型发布常伴随由多项基准测试构成的成绩表将数学、编程等能力压缩为若干分数与上一代模型横向比较。单一分数难以反映模型实际能力OpenAI研究员Noam Brown近日撰文指出当模型能在回答问题时使用更多推理步骤、调用更多工具或执行更长时间的搜索与试验后单一分数越来越难准确反映模型实际能力。他认为大模型的表现不仅取决于模型本身还取决于推理阶段获得的计算资源。未来评估模型不能只问「模型得了多少分」还应考虑模型是在消耗多少token、多少费用和多长运行时间的前提下获得成绩的。他建议行业从「单点成绩」转向「性能—推理计算量曲线」并将推理预算视为模型能力评估和人工智能安全政策的基础变量。传统成绩表低估新模型能力差距新模型的能力差距可能被传统成绩表低估。以GPT - 5.5发布后的市场反应为例发布初期其基准测试成绩不算特别显眼与GPT - 5.4相比分数提升幅度有限部分用户持观望或质疑态度。但模型开放使用数小时内开发者和研究人员测试更复杂任务时发现GPT - 5.5在长链条推理等方面表现出明显代际差异。Brown认为这种「实际体验明显增强、榜单分数却变化有限」的现象反映出传统评测未完整呈现模型能力。问题在于不同模型评测结果未必建立在相同推理预算之上传统评测方式可能掩盖关键变量某些模型获得更多推理资源后表现能显著提升而另一些模型可能较早触及性能上限。网络安全评测案例表明若只比较「最大测试时计算量」条件下的最终成绩GPT - 5.5相较GPT - 5.4优势不突出但控制token数量等条件相同GPT - 5.5能力提升更明显。这说明模型间差距不仅体现在最终分数还体现在利用额外推理计算量的效率上。简单增加推理资源不可行一种直观解决方案是为每个模型持续增加推理资源直到表现进入平台期再比较最高能力。但Brown认为这种思路在实践中未必可行因为新一代模型性能平台期可能比预期晚出现甚至在现实可承受预算范围内难以观测。他引用Andrej Karpathy发起的自动化研究实验和英国人工智能安全研究所的网络安全评测结果为例说明在复杂任务上模型能利用更长运行时间和更大推理预算持续提升表现更强的模型不仅起点高还更擅长将额外计算资源转化为有效能力。他推测随着模型能力提高可有效运行的任务周期会延长未来性能上限可能被不断推远「平台期」可能不再容易测量。转向「性能—成本曲线」评测面对这一变化Brown建议模型发布机构改变基准测试呈现方式绘制以推理计算量为横轴、任务表现为纵轴的性能变化曲线横轴可用token数量、推理费用或实际运行时间等指标。这种方法能回答传统成绩表难以解释的问题如相同预算下哪个模型表现更好等。目前部分基准测试已开始采用类似方法如ARC - AGI等评测尝试衡量模型分数与运行成本关系而非只发布单一成绩。另一种可行方案是为评测设定明确的token、成本或时间限制并提前告知模型类似于人类参加标准化考试。但Brown指出不同指标都有局限token数量、费用、运行时间都不是完美指标但都比脱离推理预算的单一分数更具信息量。推理预算影响人工智能安全评估Brown的讨论不限于模型排行榜他认为推理预算会直接影响前沿模型的安全治理。前沿人工智能模型发布前研发机构会对网络攻击等潜在滥用能力进行评估若模型达到风险阈值可能需推迟发布或增加缓解措施。但问题是如果模型能力随推理计算量增加而提升安全评估该使用多大的推理预算呢现实中普通用户和资金充足的组织投入的资源差异大如果评测机构只在低预算下测试模型可能低估其在高资源条件下的风险能力。以Gemini 3 Deep Think发布后的争议为例其基准测试成绩高但发布时未同步提供完整系统卡引发部分人工智能安全研究者批评。Brown认为争议背后的深层问题是人工智能企业和安全机构尚未形成评估不同推理预算下模型能力的稳定方法。他推测Deep Think可能是基于已有模型构建的推理脚手架系统外部开发者投入足够推理费用也可能构建类似工作流。所以真正值得关注的是基础模型发布时研发机构是否充分测试了其在不同推理预算和脚手架策略下的能力水平。高预算评测可尝试外推理论上资源充足的行为体可能为单一任务投入超1000万美元推理成本但安全评估涉及大量测试运行高预算评测成本不可行。Brown提出可先在相对可控预算范围内测试再根据模型能力随计算量变化的趋势外推高预算下的表现评测机构应明确标注预测区间和不确定性。这种方法类似通过局部数据估算大规模系统变化趋势虽无法替代实际测试但能帮助理解模型在更多资源下风险边界的变化。不过Brown也承认长周期任务可能带来难以通过短期实验解决的问题如判断自主智能体长期运行后的行为最可靠方法可能还是让其实际运行足够长时间。这会产生新矛盾人工智能模型开发和发布周期短而智能体任务周期长未来研发机构可能面临新模型未完成最大运行周期安全测试下一代模型就接近发布的情况。三项建议让推理预算成基础变量针对能力评测和安全治理问题Brown提出三项建议一是人工智能研发机构发布新模型时应公布不同推理预算下的基准测试表现理想情况是提供性能曲线至少说明取得单点成绩时的推理资源二是基准测试排行榜应记录推理资源消耗或设定统一上限目前部分评测已纳入相关变量但行业未形成标准做法三是人工智能企业的准备度框架和负责任扩展政策应明确考虑推理阶段的计算资源判断模型安全阈值时应评估多个推理预算水平并对高预算下的风险能力进行带不确定性说明的预测。行业评测体系有待完善推理阶段增加计算资源可提升模型表现并非新发现自OpenAI 2024年9月发布o1系列推理模型以来行业已普遍意识到这一点相关研究也成为大模型发展重要方向。但Brown认为趋势出现近两年后许多前沿模型发布仍靠单一基准分数传播和比较部分安全机构可能在脚手架系统使用大量推理预算获更高成绩后才重新审视模型能力边界。随着模型更擅长利用资源传统排行榜解释力可能下降同一基础模型在不同条件下能力水平不同。Brown判断未来衡量人工智能能力推理预算应成为评测报告核心参数人工智能行业正告别「用一个数字定义一个模型」的阶段重要的是模型在获得足够资源后能做到什么程度。那么行业何时能建立起完善的评测体系呢