阿里通义实验室“变形金刚“:当AI探索助手学会了按需切换记忆模式
这篇研究来自阿里巴巴集团通义实验室于2026年3月29日以预印本形式发布论文编号为arXiv:2603.27490v1有兴趣深入了解的读者可通过该编号查询完整原文。**一个悄然涌现的瓶颈**假设你有一位助理需要帮你在浩如烟海的互联网上追查一个极为隐秘的答案——也许是某位鲜为人知的说唱歌手在哪一年发布了哪首歌也许是一道连顶级学者都挠头的硬核题目。这位助理需要连续搜索、访问网页、核查信息、推翻假设、重新出发整个过程可能要进行数十步甚至上百步。问题就藏在这里这位助理的工作桌——也就是它能同时看到的内容——是有限的。随着搜索进行工作桌越摆越满旧的搜索记录、错误的推测、已经没用的网页内容全都堆在上面新的线索反而越来越难以落脚。最终工作桌被彻底塞满助理不得不停下来——哪怕答案就在眼前一步之遥。这就是当前大语言模型AI大脑驱动的自主搜索助手所面临的核心困境有限的记忆容量与无限延伸的搜索需求之间存在一道难以逾越的鸿沟。通义实验室的研究团队针对这一困境提出了一个名为**AgentSwing**的新框架。简单来说这套框架让AI搜索助手能够在恰当的时机以恰当的方式主动整理和切换自己的工作桌而不是死守一种固定的清桌策略走到底。这篇文章将带你完整理解这项研究的来龙去脉。---**一、工作桌塞满了到底是谁的错**要理解AgentSwing解决的问题先得弄清楚AI搜索助手的工作方式。当你向一个深度搜索AI提问时它并不像人类那样漫无目的地刷网页。它会按照一套思考—调用工具—获取结果的循环来工作先在脑子里想想下一步该查什么然后调用搜索引擎或者直接访问某个网址获得结果之后再继续思考。每一轮这样的循环就是一个交互回合。一道复杂的题目可能需要几百个这样的回合。整个过程中AI的工作记忆也就是它能同时处理的文本长度通常被称为上下文窗口会被每一轮的思考内容、搜索指令、搜索结果逐渐填满。大多数主流AI模型的上下文窗口虽然已经很大但面对动辄几百轮的深度搜索任务依然是杯水车薪。更麻烦的是随着搜索深入早期的内容往往变成了污染而非营养。那些已经被推翻的错误假设、反复出现的无效搜索结果、越来越长的重复记录……它们不仅占据宝贵空间还会实实在在地干扰AI的判断让它在给出最终答案时出现偏差。研究者把这种现象形象地称为上下文腐败Context Rot——就像一个工作桌上堆满了发霉的旧文件反而让新来的重要文件找不到地方放而且那些腐烂的气息还会影响你的判断。面对这个问题现有的解决方案主要有三种。第一种叫抛弃一切Discard-All工作桌满了就全清空只留下最初的问题从头再来。第二种叫只留最近Keep-Last-N清桌时只保留最近几轮的内容前面的全扔掉。第三种叫压缩总结Summary请另一个AI来把积累的内容浓缩成一段摘要再继续工作。这三种策略各有千秋但它们有一个共同的致命弱点——**它们都是一招鲜吃遍天的固定策略**。不管当前工作桌上的内容是什么状态它们都照章办事不加区分。---**二、研究团队给成功下了一个新定义**在提出解决方案之前研究团队做了一件非常有意义的事情他们为深度搜索任务的成功建立了一套全新的衡量框架。在此之前衡量一个AI搜索助手好不好通常就看一个数字Pass1也就是一次性给出正确答案的比例。但研究团队发现这个数字其实是两件完全不同的事情混在一起的结果。他们把这两件事拆开来看。第一件事叫**搜索效率η读作伊塔**AI在用完允许的回合数之前能不能成功给出一个答案不管对不对。就像考试时你能不能在铃声响之前至少写完答案——哪怕写错了。第二件事叫**终止精度ρ读作罗**在AI确实给出了答案的那些题目里答对了多少。就像考试交卷的那些同学里真正写对的比例。最终的成绩Pass1 搜索效率 × 终止精度。这个公式看起来简单却揭示了深刻的内在矛盾。以抛弃一切策略为例。这种策略每次清空工作桌让AI从零开始每次重启的尝试都只有一个相对短小的上下文答案的质量会更高——终止精度很强。但问题是每次重启都等于浪费了前面积累的信息而且每次重启后能用的工作空间很小完成任务的概率相对较低——搜索效率较弱。反过来不做任何清桌处理的基础版AI有着最高的搜索效率工作桌一直在用能持续到最后但也有着最低的终止精度工作桌上垃圾太多干扰判断。研究团队用实际数据验证了这一点。他们在实验中逐渐增大抛弃一切策略触发前允许使用的上下文空间发现随着允许的上下文越来越大答题的正确率终止精度会稳步下降——这正是上下文腐败在起作用。而基础版AI对应的是最大上下文场景因此它的终止精度在所有配置中是最低的。此外研究团队还引入了一个更公平的比较指标——**对齐终止精度ρ对齐**只在那些所有策略都给出了答案的题目上进行比较这样就排除了某个策略根本没给出答案对比较造成的干扰。这套框架为后续的分析和设计提供了清晰的坐标系任何新策略都可以在这张效率—精度的二维地图上找到自己的位置。---**三、四种策略在地图上的位置各不相同**有了这张效率—精度地图研究团队把四种策略基础版、抛弃一切、只留最近、压缩总结全都画了上去结果发现它们分布在地图的不同角落形成了一条弯曲的静态策略边界。基础版不做任何清桌占据了高效率低精度的角落——它几乎总能给出答案但答案的质量不太可靠。抛弃一切策略占据了低效率高精度的角落——它给出的答案质量很高但常常还没给出答案就已经把回合数用完了。压缩总结和只留最近这两种策略则处于中间地带在效率和精度之间各有取舍。研究团队还在多个真实评测基准上做了对比实验。这些基准包括**BrowseComp**一个专门测试深度网络搜索能力的英文评测集共选取200道题、**BrowseComp-ZH**对应的中文版本289道题全部参与评测和**HLE**人类最后的考试一个汇集了各领域极难题目的综合评测集选取了500道纯文字题。在这些评测上所有的清桌策略都比基础版好——只要允许的回合数足够多。但当回合数很少时清桌策略反而可能不如基础版因为每次重启都会浪费宝贵的机会。这个发现揭示了一个根本性的局限**任何固定策略都只是在地图上的某个点上优化而真正的最优路径应该是能够在地图上自由游走的**。---**四、AgentSwing给AI助手装上情景切换能力**正是基于这个洞察AgentSwing诞生了。AgentSwing的核心思想类似于一支探险队在深山中寻路时遇到岔路口不是随便选一条走而是先让几个小分队各走几步然后根据每个小分队实际探出的情况再决定大部队跟着哪个小分队走。具体来说AgentSwing的运作分为两个阶段。**第一个阶段叫并行上下文管理**当AI助手的工作桌使用量超过预设阈值例如占满了工作桌的20%或40%系统就会同时启动三种清桌策略把当前的工作桌内容分别按照抛弃一切只留最近压缩总结三种方式处理一遍生成三个不同的清桌后版本。此时原始的未清桌状态和三个清桌后的版本同时存在。**第二个阶段叫前瞻路由机制**系统不会立刻选择哪个版本继续。相反它让每个清桌后的版本各自独立地继续工作K个回合实验证明K3时效果最好相当于让三支小分队各自向前探了三步。探完之后系统把三支小分队的实际进展情况连同原始的未清桌版本一起展示给AI让AI自己判断哪个方向看起来最有希望。AI选定一个方向后其他分支被丢弃被选中的那个版本成为新的主线继续工作。这个设计的精妙之处在于路由决策不是基于清桌后的样子好不好看而是基于清桌后实际走了几步走得好不好。就像你评价一条山路不是看它在地图上画得好不好而是实际走几步感受一下坡度和障碍。值得一提的是AgentSwing中所有的清桌操作和前瞻探索都由同一个AI模型来完成——包括最后的选择决策。这种设计简单而实用也意味着它可以应用在任何支持工具调用的AI模型上无需额外训练或专门的判断模型。---**五、实验结果在多个维度上全面领先**研究团队用三个不同规模和来源的开源AI模型来验证AgentSwing的效果分别是GPT-OSS-120BOpenAI开源的120亿参数模型、DeepSeek-v3.2深度求索的最新版本、以及通义实验室自己研发的Tongyi-DR-30B-A3B一个300亿参数的混合专家架构模型。结果显示AgentSwing在所有模型、所有评测基准上都超过了最好的单一固定策略。以BrowseComp英文版为例GPT-OSS-120B使用AgentSwing得分60.0而最好的单一策略只留最近只有52.5基础版更是只有39.5。DeepSeek-v3.2配合AgentSwing在BrowseComp中文版上达到了71.3在HLE上达到了44.4超越了包括Claude-4.5-Opus、Gemini-3.0-Pro等多个知名闭源商业模型的成绩。通义自家的30B模型配合AgentSwing也在同等规模的开源模型中排到了前列。更值得关注的是AgentSwing的**回合效率**。在BrowseComp上AgentSwing在仅使用约200个回合时就能达到抛弃一切策略需要600个回合才能达到的成绩——也就是说效果相同成本只需三分之一。同时AgentSwing的最终成绩上限也比任何单一策略更高随着回合数增加它的提升空间更大。在那张效率—精度的二维地图上AgentSwing突破了静态策略边界占据了一个此前没有任何固定策略能到达的位置——既有接近只留最近的搜索效率又有接近抛弃一切的终止精度。研究团队还专门分析了AgentSwing在所有策略都触发了清桌操作的那些困难题目上的表现。在GPT-OSS-120B上这样的题目共有122道。抛弃一切策略在其中完成了51道答对35道Pass1为28.7%。AgentSwing完成了90道答对51道Pass1为41.8%同时平均用了190.3个回合比抛弃一切的297.2个回合少了约三分之一。这组数据清楚地说明AgentSwing的优势不是靠消耗更多资源换来的而是靠更聪明的策略选择获得的。---**六、前瞻探索到底有多重要一组消融实验**为了验证向前探几步再做决定这个设计的必要性研究团队做了一组对比实验。如果把前瞻机制去掉改成清桌后随机选一个方向走成绩会从60.0下滑到51.0GPT-OSS-120B在BrowseComp上。如果看了清桌后的样子但不让各路继续走直接选成绩是50.0。而加上前瞻探索3步之后成绩跳到了60.0。前瞻探索5步的成绩则略有回落55.0这是因为走太多步可能会导致某个分支提前把上下文窗口撑满。这组实验说明AgentSwing的关键不只是并行运行多个策略更关键的是让每个策略都实际跑几步再根据真实表现做决策。选择的依据是前瞻中真实发生了什么而不是清桌后看起来的样子。研究团队还研究了不同策略组合方式的效果。只用抛弃一切单策略做AgentSwing得分58.0同时纳入抛弃一切压缩总结两种策略得分上升到60.0纳入全部三种策略得分进一步提升到60.5。这说明候选策略的多样性本身也是有价值的——不同策略在不同情境下各有优势选择池越丰富路由机制能发挥的空间就越大。研究团队还统计了在实际运行中AgentSwing最终选择了哪种策略发现这个选择并不均匀而且不同的底层AI模型有不同的偏好。DeepSeek-v3.2和通义模型更倾向于选压缩总结而GPT-OSS-120B则更常选抛弃一切。这说明路由行为是真实反映了不同模型对不同上下文管理方式的适应性差异而非随机选择。---**七、一个真实案例AgentSwing如何在关键时刻拨开迷雾**抽象的数字有时难以让人真切感受到差异研究团队提供的一个具体案例或许更有说服力。题目大意是这样的有一位美国说唱歌手1990年代出生生于十月14岁加入了一个帮派星座是天秤座。在2015到2020年之间他发布了一首病毒式传播的热门歌曲出自他在2015到2019年间发布的某张专辑这首歌里还有另一位美国说唱歌手作为合唱嘉宾而那位嘉宾的父亲在监狱里待了15年以2016年1月21日为基准。请问这首病毒式传播的歌曲叫什么名字使用DeepSeek-v3.2的AI助手工作了23个回合后触发了清桌操作。在这23个回合里它经历了一段曲折的侦查过程一开始锁定了Nipsey Hussle但发现他是八月生的排除然后锁定了Lil Durk跟踪了很多线索但发现他的帮派入伙时间对不上是17岁而非14岁而且相关歌曲也超出了时间范围最后在第21到23回合AI尝试了新的搜索角度终于找到了一个关键线索$tupid Young。此时工作桌已经很满。它同时包含了有用的新线索$tupid Young也充斥着大量无关的旧内容对Nipsey Hussle、Lil Durk、Hit-Boy的错误追踪记录。三个清桌策略在前瞻阶段表现截然不同。抛弃一切策略把一切清空重来重新开始搜索十月出生的说唱歌手完全放弃了好不容易找到的$tupid Young线索回到了起点。压缩总结策略保留了一个以Lil Durk为中心的总结但这个总结继承了前期错误假设的偏见在前瞻阶段继续花时间验证Lil Durk浪费了三步。只留最近策略只保留了最近几轮的内容恰好包含了$tupid Young这条关键线索。在前瞻的第一步它就尝试访问$tupid Young的维基百科页面第二步确认了他生于1992年10月3日天秤座符合所有身份线索第三步已经开始搜索他的热门歌曲和合唱嘉宾信息找到了候选歌曲Mando。路由机制看到这三路的探索结果毫不犹豫地选择了只留最近。随后AI在几个回合内验证了MozzyMando的合唱嘉宾的父亲确实曾在监狱服刑15年确认了歌曲发布于2017年最终给出了正确答案Mando。这个案例完整展示了AgentSwing的工作原理不是给每种情况规定死答案而是让实际情况说话。---**八、代价几何额外的计算开销值得吗**有一个合理的疑问AgentSwing需要并行运行三套前瞻探索这肯定要花更多的计算资源。这额外的开销究竟有多大研究团队专门做了对比分析。他们在那些各策略都触发了清桌的困难题目上统计了每道题完成时的总回合数和总处理的token数量token可以理解为AI处理文字的基本计量单位。结果显示AgentSwing的总回合数处于中间水平比抛弃一切少很多和压缩总结只留最近相近。在token总量上AgentSwing虽然因为前瞻探索增加了一些但只留最近这种策略因为在每个回合都保留了较长的历史累计token其实也不少。抛弃一切在token数量上最省但代价是需要更多回合才能完成任务。综合来看AgentSwing的额外开销是真实存在的但并不夸张。考虑到它带来的性能提升这个代价是值得的。---**九、这项研究的边界在哪里**研究团队在文章末尾坦率地讨论了这项工作的局限。AgentSwing目前是一个外挂式的机制——它控制的是AI工作桌的管理方式而不是AI本身的能力。一个更根本的方向是训练出天生就能在小上下文里高效工作、在长上下文里保持精准的AI模型把这些能力内化为模型本身的素质而不是靠外部控制来补偿。另一个局限是路由决策的质量。目前AgentSwing的选择是由AI模型自己来做的这在大多数情况下是有效的但AI模型的自我评估能力并不总是可靠。如果有一个专门训练的路由器、验证器或轨迹评估器能更准确地预判哪条路更有希望路由决策的质量还能进一步提高。此外研究团队也指出候选策略集合的多样性和互补性对AgentSwing的效果有直接影响。目前使用的三种策略抛弃一切、只留最近、压缩总结已经覆盖了效率—精度谱系的主要位置但未来探索更多专门化、更有针对性的候选策略可能会带来进一步提升。---归根结底AgentSwing做的事情本质上就是把一个原本死板的机制变成了一个能看情况的机制。当AI搜索助手的工作桌快满的时候与其机械地按照同一套清桌规则处理不如先让几种不同的处理方式各自试走几步再根据实际走出来的路况做决定。这个思路朴素而有效却让整体性能产生了显著的飞跃。对于普通用户来说这项研究意味着未来的AI搜索助手在处理那些需要大量步骤、反复查证的复杂问题时将变得更加可靠和高效——无论是帮你查一个冷门问题的答案还是协助专业人员进行学术文献梳理、市场情报收集都将因为这类机制的进步而受益。有兴趣进一步了解的读者可以通过论文编号arXiv:2603.27490在arXiv平台上找到完整原文代码也已开放在Alibaba-NLP/DeepResearch这个代码仓库中。---**QA**Q1AgentSwing和普通AI搜索助手的清桌策略有什么区别A普通的清桌策略比如抛弃一切或只留最近是固定不变的无论当前搜索到了什么状态都按同一套规则处理。AgentSwing的区别在于它会在每次需要清桌时同时运行三种不同的清桌方式让每种方式各自独立地往前走三步再根据实际走出来的效果选出最合适的一条路继续。相当于先试探再决定而不是无脑执行固定动作。Q2AgentSwing的搜索效率和终止精度分别是什么意思A搜索效率指的是AI助手在用完允许的交互回合之前能不能给出一个答案哪怕答错了衡量的是能不能完赛。终止精度指的是在那些确实给出了答案的题目里答对的比例衡量的是完赛了答得准不准。最终成绩等于两者相乘。AgentSwing的优势在于它同时在这两个维度上都表现得更好而不是只顾一头。Q3AgentSwing用DeepSeek-v3.2在HLE上达到44.4分意味着什么AHLE人类最后的考试是一个汇集了各领域极难题目的测试集被认为是目前公开基准中最具挑战性的之一。DeepSeek-v3.2配合AgentSwing达到44.4分超过了Claude-4.5-Opus的43.4分和Gemini-3.0-Pro的45.8分接近持平以及GPT-5.1 High的42.7分。考虑到DeepSeek-v3.2是一个开源模型而对比的都是定价昂贵的闭源商业模型这个成绩的意义在于说明通过更聪明的上下文管理策略开源模型完全有能力在最顶级的评测上与商业模型一较高下。