中国人民大学研究团队:让机器自主完成几十小时的科研工程
这项研究由中国人民大学高岭人工智能学院联合独立研究机构及AweAI团队共同完成于2026年4月14日以预印本形式发布论文编号为arXiv:2604.13018。有兴趣深入了解的读者可通过该编号查询完整论文。---一、从写代码的AI到做科研的AI这一步有多难科研工作在很多人眼里是一项需要高度专注和持续推进的复杂工作。一位机器学习方向的博士生拿到一篇论文后需要先读懂它再搭建运行环境接着动手写代码然后跑实验、看结果、发现问题、修改代码、再跑……这个循环往往持续好几天中间任何一步出了岔子都可能前功尽弃。现在有人想让AI代替人类完成这整套工作而且是从头到尾、不依赖人类干预连续工作几十个小时。这就是这篇论文要解决的问题所在——不是让AI写一段代码也不是让AI回答一道题而是让AI像一名真正的科研工程师那样端到端地完成整个机器学习研究的复现与优化流程。中国人民大学的研究团队将这类任务称为长周期机器学习研究工程。他们开发了一个叫做AiScientist以下简称AI科学家的系统并在两个业界公认颇具挑战性的测试基准上验证了它的能力。结果相当值得关注在第一个基准PaperBench上AI科学家的平均得分比此前最强的AI基线系统高出10.54分在第二个基准MLE-Bench Lite上它以81.82%的获奖率超越了所有有记录的对比系统其中包括多个已公开发布的知名商业和研究机构系统。---二、让AI完成科研的四道关卡为什么这件事比看起来难得多要理解AI科学家的设计思路首先得明白这项任务到底难在哪里。研究团队将挑战归纳为四个层面每一个单独拿出来都不简单而它们叠加在一起就构成了一道极为复杂的难题。第一道关卡是信息不全。现实中一篇机器学习论文往往不是一份完整的操作手册。作者可能只写了主要思路很多实现细节散落在各个章节甚至完全没有提及。AI必须像一个经验丰富的工程师一样从不完整的描述中推断出缺失的决策必要时还得查阅相关文献或公开资源来补全。第二道关卡是环境搭建负担。光有算法还不够。要让代码真正跑起来需要配置运行环境、下载数据集、获取预训练模型并将所有这些资源拼接成一个可运行的完整系统。这部分工作在实际工程中常常耗时最多却最容易被忽视。第三道关卡是延迟反馈。AI提交的代码不会立即报告这里有一个逻辑错误。真正的信息要等到实验跑完才能看到结果对不上论文中的数字但是到底是哪里出了问题——是数据预处理、模型结构、超参数设置还是环境配置——很难一眼判断。AI必须在这种模糊的反馈中做出合理的判断。第四道关卡是状态连续性。每一轮实验都会产生代码、日志、结果、诊断记录。下一轮工作必须正确理解并建立在前一轮的基础之上。如果AI每次都忘记之前做了什么、发现了什么它就会一直在原地打转反复踩同样的坑。正是第四个挑战成为了AI科学家整个设计哲学的核心出发点。---三、薄控制、厚状态一套听起来奇怪但非常有效的工作方式研究团队用一句话概括了AI科学家的设计核心薄控制厚状态。这句话乍听有些抽象但用一个具体的比方来理解就清晰多了。假设你是一个大型建筑项目的总监。你不可能亲自去工地搬砖、测量、焊接但你需要知道每栋楼盖到什么阶段了下一步应该安排哪个专业队进场。你的管理方式是让每个专业队把工作记录写在一个共享的项目文件夹里你通过翻阅这个文件夹上的目录而不是每一份详细记录来做决策。需要看具体情况时你再去翻对应的文件。这里薄控制说的就是你这个总监——他对每件事只需要了解概要不需要把所有细节装进自己脑子里。厚状态说的就是那个共享文件夹——它积累了所有真实的工作记录、设计图纸、问题诊断是整个项目真正的记忆所在。AI科学家正是按照这个逻辑构建的。系统的顶层有一个指挥官Orchestrator它不需要随时掌握所有细节只需要知道项目走到哪个阶段了下一步该交给哪个专业团队。真正的工作细节——论文分析、代码、实验记录、错误日志——都保存在一个结构化的共享工作区里任何专业代理在需要时都可以去读而不是靠着上一轮对话的记忆来续接工作。---四、文件即通道AI团队如何不靠聊天传递信息在AI科学家的工作方式中有一个具体的机制叫做File-as-Bus翻译过来大约是以文件为信息通道。这个概念是整个系统的技术基石也是它与其他AI系统最显著的区别之一。大部分多智能体系统也就是由多个AI代理协作完成任务的系统依赖的是对话接力一个AI完成一段工作后把结论用语言描述给下一个AI下一个AI基于这段描述继续工作。这就像打电话传话——每传一次信息就可能失真一次。而且一旦某个AI的记忆窗口装满了之前的信息就会被丢弃再也无法追溯。AI科学家的做法完全不同。它把所有中间成果都以文件形式保存在一个有权限管理的共享工作区里。这个工作区被划分成三个区域一是论文分析区存放对目标论文的结构化理解、关键指标、实现细节和存疑之处二是提交区存放可运行的代码仓库包括环境配置脚本、资源下载逻辑以及最终执行入口文件三是代理工作区存放任务优先级计划、实现日志只能追加不能修改、实验日志和每次具体实验的详细输出。每一个专业代理在开始工作时不是靠回忆上一轮对话说了什么而是先看一眼整个工作区的目录索引一个轻量的地图然后按需读取与自己任务相关的文件完成工作后再把结果写回对应文件。这样每一轮工作的成果都真实地沉淀下来后续的代理可以站在前人工作的肩膀上继续推进而不是每次都从零开始。权限管理也是这套机制的重要组成部分。每个专业代理只能写它职责范围内的文件共享日志只能追加不能覆盖。这避免了不同代理之间相互干扰也保证了工作记录的可追溯性。---五、四个专家加一个指挥官AI科研团队的内部分工AI科学家并不是一个单一的大脑而是一个由多层次代理组成的协作团队。顶层是指挥官中间层是四个专业领域的专家代理必要时每个专家还可以召唤更专注的子代理来处理具体小任务。指挥官的职责是做阶段性决策现在应该推进哪个阶段的工作应该把任务交给哪个专家。它通过阅读工作区目录和各代理返回的简短摘要来了解项目进展不需要把所有细节装进自己的脑袋。这种安排使得指挥官的工作记忆始终保持轻盈从而能在整个几十小时的任务周期内持续稳定地发挥协调作用。专家代理各有分工。论文理解专家负责读懂目标论文将其分解为结构、算法、实验设计、基线方法等维度并将结果写入论文分析区。它可以同时召唤多个子代理并行处理不同维度再汇总成完整的分析文件供后续所有代理参考。任务优先级专家则读取论文分析结果识别各项实现任务之间的依赖关系按照重要性和可行性排列顺序生成一份明确的执行计划文件。这份文件就是整个项目实施阶段的行动纲领。实现专家是代码工作的主力。它有两种工作模式当系统还没有可运行代码时它从分析文件和执行计划出发从头搭建整个代码仓库当已经有代码但实验出了问题时它切换到修复模式根据实验日志中记录的错误有针对性地修改代码并把每次重要的代码决策记录在实现日志中。实验专家负责运行代码、观察结果将实际产生的指标与论文中报告的目标值进行对比记录差异和问题并在遇到简单错误如导入路径错误、配置文件格式问题时直接修复而将需要深度代码改动的问题提交给指挥官由指挥官再次调度实现专家处理。此外系统还设有一个通用助手接口用于处理探索、规划或一次性辅助任务这些任务不需要专门的专家流程但也值得有一个专门的代理去完成。---六、实验结果两个基准上的表现如何研究团队选择了两个互补的评测基准来全面考察AI科学家的能力。第一个是PaperBench由OpenAI参与设计专门用来测试AI从头复现顶级机器学习会议论文的能力。任务规则非常严格给AI一篇论文、一个配有GPU的空白Docker容器和24小时时间不能使用作者的原始代码必须自己从零开始搭建、运行并得出与论文匹配的实验结果。评分维度包括代码质量、能否成功运行以及结果与论文的吻合程度。这个基准出了名地难——此前最好的AI系统只能完成约21%的评分要求而顶尖的机器学习博士生在48小时内能完成约41%。AI科学家在使用Gemini-3-Flash作为底层语言模型时平均得分达到30.52分比同条件下最强的基线系统高出9.92分使用GLM-5时平均得分达到33.73分比最强基线高出11.15分。在20个不同的论文复现任务中几乎每一个任务上AI科学家都有明显提升其中最显著的一个任务pinn在GLM-5下提升了32.99分。值得特别关注的是成本对比。此前表现相对较好的迭代代理系统IterativeAgent在Gemini-3-Flash下每个任务平均花费27.44美元而AI科学家只需15.67美元却能取得更高的分数。在GLM-5下差距更悬殊迭代代理每任务花费54.90美元AI科学家只需12.20美元。这说明单纯多做几轮交互并不等于更好的结果关键在于每一轮交互是否真正建立在之前积累的成果之上。第二个基准是MLE-Bench Lite这个基准更接近Kaggle竞赛的形式——AI需要在现有数据集上持续优化机器学习方案争取在模拟的竞赛排行榜上获得铜牌、银牌或金牌。主要评估指标是任意奖牌获取率Any Medal%即在全部测试任务中有多少比例能至少获得一枚奖牌。在受控对比实验中AI科学家使用两种底层模型均达到了81.82%的任意奖牌率分别比最强对比系统高出4.55和18.18个百分点。在官方排行榜上AI科学家的81.82%超过了所有已公开记录的系统其中最高的是75.76%。图1展示了一个具体案例在侮辱性言论检测这一任务上AI科学家在23小时内自主完成了74轮实验将模型的验证集AUC一种衡量分类模型好坏的指标越接近1越好从0.903提升到了0.982期间经历了18次找到更好方案并保留的关键节点同时也经历了大量尝试无效果而丢弃的探索过程全程无需人工干预。---七、关键机制验证去掉文件通道会发生什么为了弄清楚AI科学家的效果到底来自哪里研究团队做了一系列对照实验重点检验两个问题去掉文件即通道机制后系统表现如何下降与更简单的非层级化代理相比层级化编排贡献了多少去掉文件即通道机制的实验结果相当直观。在PaperBench上平均分下降了6.41分在MLE-Bench Lite上任意奖牌率下降了31.82个百分点。后者的下降尤为值得关注——去掉这个机制后系统仍然能产生有效提交也还能获得一些铜牌但银牌、金牌这类需要多轮精细优化才能达到的成绩大幅下滑。这个模式揭示了一个关键规律文件即通道机制的价值不在于帮助AI入门而在于帮助它在已经有基础的情况下持续进步。换句话说当任务需要跨越多轮实验、不断从之前的诊断中学习时丢失中间状态的代价就会急剧放大。与更简单代理的对比同样说明了问题。研究团队将AI科学家与非层级化的简单代理在PaperBench上对应BasicAgent在MLE-Bench Lite上对应AIDE进行比较发现即使是去掉文件即通道机制的残缺版AI科学家在PaperBench上仍比BasicAgent高出4.74分在MLE-Bench Lite上的高于中位数率和任意奖牌率也分别高出22.73和9.09个百分点。这说明层级化编排本身就带来了独立的贡献而不是全部效果都来自文件持久化。此前的迭代代理系统尽管比BasicAgent多了更多交互轮次却仍然远不如AI科学家甚至不如去掉文件通道的AI科学家进一步印证了更多交互和在积累状态上的持续推进是两件完全不同的事。---八、这项研究告诉我们什么归根结底AI科学家这个系统传递的最核心信息是对AI如何做长周期任务这一问题的一次重新定性。研究团队认为自主长周期机器学习研究工程本质上是一个**系统协调问题**而不仅仅是一个**局部推理问题**。过去很多人认为只要语言模型足够强大给它更多时间和更多思考机会它就能自然而然地完成更复杂的任务。但这项研究的实验结果表明单纯增加交互轮次并不能带来持续的进步因为每一轮新的工作如果不能建立在之前工作的基础上就只是在重复劳动而不是在积累。真正让AI能够跨越几十小时、跨越几十轮实验持续进步的是一套让历史工作成果始终可访问、可信赖、可建立的机制设计。文件即通道协议做到了这一点而层级化编排则确保了这些积累下来的状态能够被正确地路由给有能力处理它们的专业代理。当然这个系统离人类顶尖研究人员的水平还有距离——在PaperBench上顶尖机器学习博士生在48小时内能完成约41%的评分要求而AI科学家目前达到的是约33.73%。但这个差距已经比之前任何AI系统小得多而且研究团队在这个方向上的设计思路为进一步缩小这一差距提供了一个清晰可扩展的框架。值得思考的是随着这类系统的能力不断提升科研流程的加速和民主化可能比我们预期的更快到来——不仅是顶尖机构普通研究者也可能借助类似的系统以更低的成本完成更高质量的实验性研究工作。对这个话题有兴趣的读者可以通过arXiv编号2604.13018查阅完整论文获取更多技术细节和实验数据。---QAQ1AiScientist系统的文件即通道机制是什么意思为什么重要A文件即通道File-as-Bus是指AI科学家系统中各个代理不通过对话传递信息而是把所有中间成果如论文分析、代码、实验日志写入一个共享工作区的文件里后续代理直接读文件来续接工作。这避免了信息在反复传话中失真或丢失使每轮工作都能真正建立在之前积累的基础上。实验表明去掉这个机制后MLE-Bench Lite的获奖率会下降近32个百分点。Q2PaperBench测试的是什么AI科学家的表现如何APaperBench要求AI在24小时内从一篇机器学习论文出发在没有原始代码的情况下从零搭建、运行并复现论文的核心实验结果。此前最好的AI系统只能完成约21%的评分要求而顶尖博士生能完成约41%。AI科学家使用GLM-5模型时达到了平均33.73分比此前最强AI基线高出11.15分并显著缩小了与人类博士生的差距。Q3AI科学家系统与其他AI代理系统最大的区别是什么A最大区别在于AI科学家通过文件即通道机制实现了跨轮次的持久状态积累而不是依赖对话接力传递信息。此外它采用层级化编排由一个轻量的指挥官调度多个专业代理论文理解、任务规划、代码实现、实验执行每个代理只负责自己的领域避免了单一代理承担过多任务导致的失控问题。两者共同作用使系统能在几十小时内持续有效地推进工作。