北大:首个生物流程推理大规模基准
摘要大语言模型LLM难以掌握生物实验流程所需的严格程序逻辑与操作精度制约了自主科学实验的实现。为解决这一核心问题本文提出面向生物流程推理的综合性评测资源BioProBench。该资源以BioProCorpus为基础构建了包含27,000篇人工撰写实验流程的基础语料库并基于此系统性构建了超55万个任务实例的数据集兼具大规模训练资源与含新型评测指标的严谨基准。本文对10款主流大语言模型进行评测后发现模型在通用理解任务中表现良好但在需要深度推理、定量精度与安全意识的任务上性能显著下降。为验证BioProCorpus的实用价值本文研发了ProAgent依托该语料库大幅提升了现有模型性能。BioProBench为下一代高可靠性科学人工智能提供了严谨的诊断基准与基础资源。代码与数据https://github.com/YuyangSunshine/bioprotocolbenchhttps: //huggingface.co/datasets/BioProBench/BioProBench{liuyuyang13, yuanli-ece, yhtian}pku.edu.cn{lvliuzh}stu.pku.edu.cn#BioProBench #生物实验流程 #流程理解 #流程推理 #数据集 #基准评测 #大语言模型 #ProAgentBioProBench的设计与构建BioProCorpus语料库的采集与清洗图1 BioProBench总体架构BioProBench总体架构包含aBioProCorpus数据来源与数量分布b任务与子任务数量c生物学科类别数量d生物学科类别占比。数据集与基准构建图2 BioProBench构建流程BioProBench构建流程包含3大核心阶段首先通过采集、清洗与扩充原始科学实验流程构建结构化的BioProCorpus语料库其次基于该语料库构建5大任务最后通过自动化筛选与专家验证完成基准的质量过滤。图3 BioProBench基准中各任务的典型示例BioProBench基准中协议问答、步骤排序、错误修正、协议生成、流程推理5大任务的典型样本示例。评估指标表1 BioProBench框架的评估指标箭头表示各指标的最优趋势↑代表越高越好↓代表越低越好。实验流程智能体ProAgent图4 ProAgent架构ProAgent架构包含规划器、自适应检索器、任务优化生成器依托BioProBench语料库的知识库实现任务自适应的流程推理。实验大语言模型在BioProBench基准上的性能图5 a协议问答任务性能对比 b步骤排序任务性能对比a协议问答任务以准确率Acc与布里尔分数BS为评测指标的性能对比b步骤排序任务以精确匹配EM与肯德尔相关系数τ为评测指标的性能对比。各任务主指标最优值以红色标注。表2 错误修正任务性能对比最优值以蓝色标注次优值以浅蓝色标注。表3 错流程推理-错误修正任务性能对比最优值以蓝色标注次优值以浅蓝色标注。图6 协议生成任务在直接提示与0样本思维链提示下的综合性能对比协议生成任务在直接提示、0样本思维链提示2种模式下各模型在精确率、召回率、F1值、BLEU、METEOR、ROUGE-L、步骤精准度等指标的综合性能对比。ProAgent性能分析图7 ProAgent与Gemini-2.5的综合性能对比ProAgent与Gemini-2.5在协议问答、步骤排序、错误修正、协议生成及外部基准LABBench上的综合性能对比。详细总结思维导图评估指标体系参考BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoninghttps://doi.org/10.48550/arXiv.2505.07889260121BioProBench.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。