谷歌DeepMind让AI学会“主动查资料“
这项由爱丁堡大学与谷歌DeepMind联合开展的研究以预印本形式发布于2026年5月13日论文编号为arXiv:2605.13050v1有兴趣深入了解的读者可以通过该编号查询完整论文。**研究概要**假设你有一位助理学识渊博但所有知识都来自几年前读过的书。如今你让他帮你查一份最新的医疗指南或者翻译一段非常小众语言的文字他却只能凭着模糊的印象胡乱猜测——因为那些知识根本不在他的记忆里。这就是当今绝大多数大型语言模型也就是人们常说的大模型或AI助手所面临的核心困境。今天要介绍的这项研究尝试从一个颇具新意的角度破解这个困境。研究团队的思路不是让AI学更多知识而是让AI学会自己去查资料。更关键的是他们发现单纯给AI开通上网权限非但不够甚至可能帮倒忙——除非同时配套一套经过精心设计的训练机制。整篇研究围绕一个核心问题展开在不修改AI模型本身参数可以理解为不改造AI的大脑结构的前提下如何让AI在面对全新任务时通过主动搜索外部信息来持续提升自身表现研究结果表明当主动信息搜索能力与一种类似择优录取的训练程序结合使用时AI在低资源语言翻译、医疗健康问答、代码竞赛以及顶级学术考试等截然不同的任务上都能获得实质性的进步。---一、AI的闭卷考试困境每一位参加过期末闭卷考试的人都明白那种无力感——当脑中某个知识点恰好是空白时无论多么努力地思考也无法凭空生出答案。当今的大型语言模型面临着同样的处境而且情况更加棘手。这些模型在出厂之前经历了海量的训练学习了互联网上数以亿计的文本内容。然而一旦训练结束、模型部署上线它的知识库就被冻结在了那个时间点。此后发生的任何新事件、新研究、新规范都不会自动进入模型的记忆。更麻烦的是对于那些本身就不常出现在主流互联网上的知识——比如西非某个小语种的语法规则或是某个冷门医学领域的最新指南——模型从一开始就几乎一无所知。重新训练一个大模型来补充这些知识代价极其高昂就像要求一个成年人为了学一个新单词回去重读小学一样不现实。更麻烦的是重新训练往往会让模型忘记之前掌握的其他知识这被研究者称为灾难性遗忘。正因如此近年来兴起了一种替代思路与其改变模型的大脑不如改变模型收到的任务说明书。这种思路叫做语境优化或上下文训练原理类似于给一个聪明的厨师更好的食谱而不是给他换一副新的味觉器官。通过精心构建和不断调整放在模型面前的文字说明也就是上下文或语境可以在不改动模型本身的情况下让它表现得更好。这套方法已经有了一批先行者包括ProTeGi、TextGrad和DSPy等框架。它们的基本逻辑是让一个AI优化器不断观察另一个AI执行器的表现然后修改任务说明帮助执行器在下一轮做得更好。然而这些方法全都存在一个共同的根本性缺陷——它们是封闭的系统。优化器只能在自己已有的知识范围内打转遇到真正的知识盲区时只能用看似合理却实为杜撰的内容来填充上下文非但帮不上忙还可能把执行器带入歧途。麻省理工学院等机构的研究者已经指出这种自我消化的循环可能导致语境崩溃——AI的输出质量随着训练循环的推进反而越来越差就像反复复印一张纸每一代都比上一代更模糊。研究团队从这个痛点出发提出了一个朴素却有效的问题如果在优化器想不出好答案的时候允许它去维基百科或网页上查一查会怎样---二、查资料这件事没想象中那么简单给AI开通上网权限听起来像是一个显而易见的解决方案但研究团队在实验初期迅速发现现实远比预想复杂。他们把这一阶段的发现称为顺序训练管道的陷阱用更直白的话说就是直接给AI加装搜索工具往往会让事情变得更糟。研究团队以英语翻译成乔克维语Chokwe一种主要在安哥拉和赞比亚使用的班图语族语言为例展示了第一个陷阱的全貌。这个陷阱被他们命名为语境污染。在标准的顺序训练流程中AI优化器在每一步都会修改任务说明然后直接把修改结果传递给下一轮。实验数据显示在训练进行到第4步时优化器从网络上获取并写入上下文的一小段内容大约200个字符的新增信息竟然导致翻译得分从合理区间骤降至接近谷底。更令人沮丧的是此后整整经历了从第16步到第128步的漫长过程优化器都在反复添加和删除各种信息却始终无法恢复到污染之前的性能水平。就好比一锅美味的炖菜里误加了一勺醋不管后来怎么放盐、放糖、放酱油那股酸味就是挥之不去。第二个陷阱叫做局部最优用比赛来理解就更直观——选手一旦找到一个还算稳定的策略就会停留在那里不敢冒险尝试可能更好但短期风险更高的新策略。研究团队以英语翻译成布吉斯语Buginese主要分布于印度尼西亚苏拉威西岛为例用图表清晰展示了这种困境的样貌。他们对优化过程中上下文内容的构成进行了追踪分类发现了一个有趣但令人挫败的规律整个训练过程中词汇表支持类资源始终占据上下文的主导地位而平行例句和语言规则这两类潜力更大的资源则始终处于边缘地位。更奇特的是优化器会周期性地尝试删除词汇表内容但在随后的几步里又会重新添加回来。这是一种典型的原地打转——系统知道现有策略并不完美但无法找到更好的出路只能在同一个坑里反复挣扎。上下文长度的曲线因此呈现出一种规律性的锯齿形状增长、崩塌、增长、再崩塌周而复始性能始终在低位徘徊。这两个陷阱共同揭示了一个重要事实搜索工具本身不是答案关键在于如何管理搜索工具产生的结果以及如何在探索新策略和稳固已有成果之间保持平衡。---三、解决方案像高考志愿一样择优录取针对上述两个核心问题研究团队设计了一套全新的训练机制其核心思想借鉴自计算机科学中一种经典的搜索算法——束搜索Beam Search。用招收大学新生来类比传统的顺序训练就像一所只招一个人的学校每次考试后立刻录取成绩最好的那位然后让这位学生继续参加下一轮考试过程中没有任何回头的机会。而束搜索风格的训练则像一所同时保留着多个名额的学校每一轮都会培养多位候选人最终择优录取一批落选的方案则被淘汰不会影响后续的优胜者。具体来说这套机制的运作方式如下。在每一个训练周期的开始系统同时维护着若干个候选上下文也就是若干版本的任务说明书而不是只维持一个。这些候选方案就像同时在培训中的多个厨师学徒每人手上拿着一份略有不同的食谱。接下来进入探索阶段。对于每一个候选方案优化器都会在一小批训练数据上尝试生成多个衍生方案。在这个过程中优化器可以调用维基百科搜索工具和网页浏览工具主动查阅它认为可能有用的外部信息。为了防止所有衍生方案千篇一律系统在生成每一个新方案时都会把之前已经探索过的路径简要告知优化器明确要求它尝试不同的方向。在机器翻译的例子里不同的分支方案可能分别侧重于建立词汇表、寻找目标语言的参考文章、收集平行例句等完全不同的策略。探索结束后进入评选阶段。所有的衍生方案连同本轮探索之前成绩最好的那个老方案研究团队称之为什么都不做选项一起在一个独立的验证数据集上接受评分。验证数据集与训练数据完全分离这确保了评分的公正性不会让善于走后门即记住训练题目本身的方案蒙混过关。最终得分最高的若干方案入选下一轮其余的被淘汰。什么都不做选项的存在尤其关键。它相当于给整个系统安装了一道安全阀如果这一轮所有的探索尝试都引入了噪音或错误信息系统可以干净利落地回到上一轮的最优状态而不是被迫接受一个比差更差的结果。这直接解决了语境污染的问题——污染过的方案会在评选阶段被高分的干净方案淘汰污染效果在传播到下一轮之前就被截断了。同时通过维护多个并行候选方案和主动鼓励探索不同策略系统也获得了摆脱局部最优的能力。就算当前最优方案已经在某个策略上陷入停滞其他候选方案仍在探索完全不同的路径一旦其中某条路径被验证更有效它就会在评选阶段胜出把整个系统带向新的方向。为了让这套保留多个版本、随时回溯的机制在实际代码中可操作研究团队将上下文数据库实现为一个带有版本控制功能的代码仓库类似于程序员常用的Git工具。优化器可以新建分支来为一个候选方案创建独立的探索空间提交当前状态以保存进度或者切换到某个历史节点来回溯之前的状态。这些操作细节在实际使用中是自动执行的并不需要使用者手动管理。---四、上下文本身从一段文字变成一个资料库除了训练机制的创新研究团队还对上下文的形态本身进行了重新设计。在大多数现有的语境优化系统中上下文就是一段文字——一段对执行器的说明或提示词。这种形式简单直接但有一个明显的局限如果需要修改其中的一部分内容往往不得不重写整段文字牵一发而动全身既低效又容易引入新的错误。研究团队的做法是把上下文实例化为一个结构化数据库其中存放着若干独立的资源条目。每个条目都有自己的唯一编号、摘要、正文内容以及包含来源、长度、关键词、语义向量在内的元数据。这种设计的好处是多方面的。优化器可以精准地修改或删除某一个特定条目而不影响其他条目就像在一个整理得井井有条的文件柜里精准找到并更换某一份文件而不必翻动其他所有文件夹。执行器在处理任务时也可以只调取与当前任务最相关的那几条资源而不是把整个上下文一股脑读进来减少了无关信息的干扰。配合这个资料库研究团队实现了一套交互接口让优化器可以通过工具调用的方式完成写操作初始化、新增、删除、更新、合并条目等和读操作按关键词搜索、按语义相似度搜索、调用专门的检索子代理进行复杂查询等。外部信息获取工具方面系统配备了两类工具一是基于Python维基百科库实现的维基百科搜索工具适合快速查询明确的概念定义二是基于browser-use库实现的网页浏览工具允许优化器访问任意网页提取代码片段、最新报告或尚未被维基百科收录的文档内容。后者更适合处理复杂或模糊的信息需求因为有时候优化器自己也不能确切知道需要什么只有通过浏览才能逐渐聚焦。---五、实验验证四块不同形状的拼图研究团队在四类截然不同的任务上检验了这套方法覆盖范围之广本身就是一种信心的表达。第一类任务是低资源语言翻译使用的是FLORES基准数据集目标是把英语翻译成五种极小众的语言布吉斯语、马加希语Magahi印度比哈尔邦的一种语言、基库尤语Kikuyu肯尼亚的班图语言、乔克维语和西南丁卡语Southwestern Dinka南苏丹的语言。这五种语言的共同特点是它们都不在谷歌翻译的直接支持范围内而且模型在零样本条件下表现普遍较差是名副其实的知识盲区。第二类任务是医疗健康问答使用HealthBench数据集。这个基准数据集模拟真实的医疗对话场景每个问题都配有由执业医生撰写的评分标准评估AI能否给出专业且安全的回答。挑战不只是知识本身还包括语气、深度和实用性是否符合医学专业规范。第三类任务是代码竞赛使用LiveCodeBench数据集其中包含从各类编程竞赛网站收集的真实竞赛题目。研究团队重点关注中等难度和高难度题目在pass1一次提交即通过和pass8八次提交中至少一次通过两项指标上的表现。第四类任务是跨学科推理使用Humanitys Last ExamHLE直译为人类最后的考试数据集。这个数据集由来自生物/医学、计算机科学/人工智能、物理、数学、人文社科等多个领域的顶级难题组成代表人类学术能力的顶端。所有实验都在严格的低数据条件下进行——每项任务只使用128个训练样本和64个验证样本。这是对方法实际应用价值的重要考验因为在现实场景中标注数据往往极其稀缺。---六、数据说话成绩单上写着什么实验结果在各项任务上都呈现出一致的规律这种一致性本身就是研究结论说服力的重要来源。在低资源翻译任务上衡量翻译质量的指标是ChrF分数该分数综合考量字符级别的精确度和召回率。基础版Gemini-2.5-Flash模型研究中使用的主力AI在五种语言上的平均得分为26.31分。添加了外部搜索工具但仍使用顺序训练的Seq-IS方案平均得分反而下降到了29.68分低于没有搜索工具的顺序训练方案31.13分。这印证了研究团队此前的理论分析搜索工具与顺序训练结合会产生反效果。相比之下束搜索加信息搜索的完整方案BeamSearch-IS将平均分提升到了34.51分不仅大幅超越所有其他方案甚至超过了规模大得多的Gemini-2.5-Pro模型30.37分。在五种语言中马加希语的提升尤为亮眼从44.86分跳升至50.52分。在医疗健康问答任务上最终得分采用官方评分标准。基础模型得分0.3793而BeamSearch-IS方案达到0.5026与体量更大的Gemini-2.5-Pro0.5030几乎持平。在细分主题分析中BeamSearch-IS在健康数据处理和紧急转诊识别两个子类别上甚至超过了Pro版模型但在回应深度这一子类别上仍逊于Pro版研究团队认为这说明更大模型在生成流畅、有深度文本方面的固有优势仍然存在语境优化尚无法完全弥补这一差距。在代码竞赛任务上单纯依赖模型内部知识的各种方案不带搜索工具在整体pass1上都维持在约49%与基础模型相差无几说明在这类任务上仅凭优化任务说明书收益甚微。BeamSearch-IS将高难度题目的pass1从基础模型的30.0%提升至33.9%同时将pass8提升至57.2%在所有方案中最高。在跨学科推理任务上基础模型在各类别的平均准确率约为6.53%。BeamSearch-IS将这一数字提升至8.63%在生物/医学8.81%、计算机科学8.30%、物理7.67%、数学11.15%和人文社科7.23%等多个方向均有提升是所有方法中唯一在所有子类别上都取得正向改善的方案。---七、深挖数据束搜索究竟做了什么研究团队并不满足于展示最终成绩他们进一步追踪了训练过程中上下文内容的构成变化试图理解束搜索在背后发挥了怎样的作用。在布吉斯语翻译任务的可视化图表中研究团队追踪了几类资源平行例句、词汇表、术语约束、语言规则等在整个训练过程中所占比例的变化。与顺序训练时词汇表一家独大、反复增删却无法突破的局面截然不同束搜索训练下的上下文逐渐演化出了一种由语言规则和平行例句共同主导的结构翻译得分也随着这种结构的形成而稳步上升。在训练初期的局部放大图中可以看到一个颇具代表性的自我纠错片段在第1步优化器确实大量增加了词汇表内容橙色区域的一个短暂尖峰。但在第2步束搜索机制对所有候选方案进行了评分对比词汇表为主的方案得分不敌以语言规则为主的方案因此被淘汰。系统由此转向了更有效的策略而这个转向只用了两步便完成在顺序训练中则可能需要数十步甚至永远无法实现。这个观察与近期语言学研究中的发现相呼应研究者Aycock等人发现在低资源翻译任务上语言规则与平行例句的组合比单纯扩充词汇表更有效。束搜索机制让AI自己发现了这一点。---八、样本效率与超参数稳定性研究团队还专门对两个实际部署时最关心的问题进行了分析。第一个问题是需要多少数据。实验在西南丁卡语翻译任务上把训练样本数量从4个一路扩大到256个观察各方法的表现变化。结果发现顺序训练方法即便拥有256个训练样本也始终处于低性能区间ChrF得分在17-18分左右说明数据量的增加对其帮助有限。BeamSearch-IS方法则表现出了惊人的数据效率仅用32个训练样本就能达到超过23分的性能接近该方法在全量数据下的最优表现。研究团队将这种特性比作信号放大器——通过对每个训练样本进行多条路径的并行探索束搜索机制从有限的数据中提取出了更多信号远比传统方法高效。第二个问题是超参数怎么设置。束搜索有三个主要参数束宽同时维护多少个候选方案、每步假设数每个候选方案生成多少个衍生方案和训练轮次。研究团队测试了多种参数组合用宽度-假设数-轮次的格式命名如2-3-1表示束宽为2、每步假设数为3、训练1个轮次。结果显示大多数均衡型配置如2-1-3、3-2-1、1-2-3等都能获得22.2到22.45分之间的相近成绩形成了一个宽阔的稳健区间。只有极端不均衡的配置如6-1-1即极宽但几乎不做深度优化才会显著拖累性能跌至20.73分。这说明方法对超参数的容忍度相当高使用者不需要费心调参就能获得稳定的结果。---九、跨模型迁移好的知识不认门一个真正有价值的问题是上下文优化后所学到的东西究竟是真正有用的外部知识还是针对某个特定模型的特殊暗语为了回答这个问题研究团队把用Gemini-2.5-Flash优化出来的上下文原封不动地拿给更新、更强的Gemini-3-Flash模型使用不做任何额外调整。结果非常清晰。顺序训练Seq方法优化出的上下文迁移效果不佳——例如在HealthBench上反而造成轻微下降从0.6164降至0.6011在数学和计算机科学等推理密集型子类别上同样表现欠佳。这印证了研究团队的判断没有外部信息支撑的上下文优化倾向于学到一些针对特定模型行为习惯的执行器专属模式换了一个模型就失效了。BeamSearch-IS方法的结果则截然相反。在马加希语翻译上得分从原始的42.80分一举提升到52.12分增幅接近10分。在HealthBench上得分从0.6164升至0.6624。在HLE各子类别上增幅甚至比在Gemini-2.5-Flash上还要大。这意味着BeamSearch-IS通过主动搜索所构建的上下文包含的是真正普遍适用的外部知识而不是对某个特定模型的投其所好。搜索来的好知识换一个更聪明的学生反而能学以致用得更好。---十、资源到底有没有漏题研究团队还做了一项在学术界颇具现实意义的检查上下文资料库里存放的那些主导资源少数几条对大量测试样本都有正向贡献的资源会不会其实只是背了答案把训练集里的题目和答案藏进了上下文为了排除这种可能性研究团队专门针对机器翻译任务和医疗健康任务用另一个AI模型Gemini-3-Flash作为数据污染检测员逐条检查上下文资源中是否存在测试集问题与参考答案的明显重合。检查结果是零污染——所有主导资源提供的都是通用语言规则、医学指南原则之类的普遍性知识而非针对特定测试题目的专属答案。这说明方法取得的性能提升来自真实的知识迁移而非数据泄露。---说到底这项研究揭示的是一件听起来简单、做起来不简单的事情让AI知道自己不知道什么并且愿意、能够去查。现有的大多数AI助手在面对知识盲区时要么胡乱编一个听起来合理的答案要么干脆承认不知道——但两种情况下它都不会主动去翻翻资料。研究团队所做的工作相当于给这种死记硬背型助手加装了一种反射弧遇到问题先查再答。不过研究者自己也坦承这套方法还有明显的局限。首先它的效果部分依赖于基础模型的读懂资料并加以运用的能力——Gemini-3-Flash之所以比Gemini-2.5-Flash从同一份上下文中获益更多正是因为更强的模型更擅长把外部资料转化为正确答案。其次从数据分布图可以看出绝大多数被收集进来的资源都是高度实例特定的只对一小部分测试样本有帮助。如果任务的知识需求极为分散比如HLE这类顶级难题有限的训练样本很可能无法覆盖测试集所需的全部知识领域优化出的上下文自然难以大范围泛化。这些局限为未来的研究指出了明确方向如何让模型更有效地把查到的资料用起来以及如何设计更宽泛、更多元的搜索策略在有限的训练资源下覆盖更广的知识空间。另一个值得探索的方向是离线和在线知识准备的结合——用离线阶段建立通用背景知识库再用在线阶段针对具体问题即时补充。归根结底这项研究提醒了我们一个好用的AI助手不只需要一个聪明的大脑还需要一双愿意去翻书的手。有兴趣深入了解这项研究全部细节的读者可以通过arXiv编号2605.13050查阅完整论文。---**QA**Q1语境优化上下文训练和普通的AI对话有什么区别A普通对话是你给AI一个问题AI直接回答。语境优化是一种训练AI的过程专门设计一套持续改进的任务说明书让AI在不改变自身结构的情况下在特定类型任务上越做越好。这份说明书里可以包含例子、规则、参考资料等相当于给AI配备了一本专门针对这项任务的参考手册。Q2BeamSearch-IS方法搜索来的资料会不会把答案直接塞进去造成作弊A研究团队专门对此进行了检验。他们用另一个AI模型逐条审查上下文资源库里的每一条资料确认是否存在测试题目和对应答案的直接重合。结果显示零污染所有主导资源都是通用知识如语法规则、医学指南原则而非特定题目的答案因此性能提升来自真实的知识迁移不是作弊。Q3这套方法能用在普通人日常使用的AI产品上吗A目前这套方法属于研究层面的框架需要技术团队集成到产品中不是普通用户自己能直接操作的工具。但其核心思路——让AI在优化任务策略时主动搜索外部信息而不只靠内置知识——已经展示了明确的可行性未来有可能以某种形式出现在各类AI助手的后端帮助它们在特定专业领域医疗、法律、小语种翻译等提供更准确的服务。