北大：首个生物流程推理大规模基准

张

张建站

2026/4/27 13:53:25

10分钟阅读

摘要大语言模型LLM难以掌握生物实验流程所需的严格程序逻辑与操作精度制约了自主科学实验的实现。为解决这一核心问题本文提出面向生物流程推理的综合性评测资源BioProBench。该资源以BioProCorpus为基础构建了包含27,000篇人工撰写实验流程的基础语料库并基于此系统性构建了超55万个任务实例的数据集兼具大规模训练资源与含新型评测指标的严谨基准。本文对10款主流大语言模型进行评测后发现模型在通用理解任务中表现良好但在需要深度推理、定量精度与安全意识的任务上性能显著下降。为验证BioProCorpus的实用价值本文研发了ProAgent依托该语料库大幅提升了现有模型性能。BioProBench为下一代高可靠性科学人工智能提供了严谨的诊断基准与基础资源。代码与数据https://github.com/YuyangSunshine/bioprotocolbenchhttps: //huggingface.co/datasets/BioProBench/BioProBench{liuyuyang13, yuanli-ece, yhtian}pku.edu.cn{lvliuzh}stu.pku.edu.cn#BioProBench #生物实验流程 #流程理解 #流程推理 #数据集 #基准评测 #大语言模型 #ProAgentBioProBench的设计与构建BioProCorpus语料库的采集与清洗图1 BioProBench总体架构BioProBench总体架构包含aBioProCorpus数据来源与数量分布b任务与子任务数量c生物学科类别数量d生物学科类别占比。数据集与基准构建图2 BioProBench构建流程BioProBench构建流程包含3大核心阶段首先通过采集、清洗与扩充原始科学实验流程构建结构化的BioProCorpus语料库其次基于该语料库构建5大任务最后通过自动化筛选与专家验证完成基准的质量过滤。图3 BioProBench基准中各任务的典型示例BioProBench基准中协议问答、步骤排序、错误修正、协议生成、流程推理5大任务的典型样本示例。评估指标表1 BioProBench框架的评估指标箭头表示各指标的最优趋势↑代表越高越好↓代表越低越好。实验流程智能体ProAgent图4 ProAgent架构ProAgent架构包含规划器、自适应检索器、任务优化生成器依托BioProBench语料库的知识库实现任务自适应的流程推理。实验大语言模型在BioProBench基准上的性能图5 a协议问答任务性能对比 b步骤排序任务性能对比a协议问答任务以准确率Acc与布里尔分数BS为评测指标的性能对比b步骤排序任务以精确匹配EM与肯德尔相关系数τ为评测指标的性能对比。各任务主指标最优值以红色标注。表2 错误修正任务性能对比最优值以蓝色标注次优值以浅蓝色标注。表3 错流程推理-错误修正任务性能对比最优值以蓝色标注次优值以浅蓝色标注。图6 协议生成任务在直接提示与0样本思维链提示下的综合性能对比协议生成任务在直接提示、0样本思维链提示2种模式下各模型在精确率、召回率、F1值、BLEU、METEOR、ROUGE-L、步骤精准度等指标的综合性能对比。ProAgent性能分析图7 ProAgent与Gemini-2.5的综合性能对比ProAgent与Gemini-2.5在协议问答、步骤排序、错误修正、协议生成及外部基准LABBench上的综合性能对比。详细总结思维导图评估指标体系参考BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoninghttps://doi.org/10.48550/arXiv.2505.07889260121BioProBench.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。

G-Helper：轻量级华硕笔记本硬件控制工具的技术解析与实战指南

G-Helper：轻量级华硕笔记本硬件控制工具的技术解析与实战指南【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, St…...

2026/4/27 13:42:27 阅读更多 →

告别轻飘飘！用Unity Physics2D.gravity微调，5分钟搞定2D角色跳跃的“重量感”

让2D角色跳跃更有质感：Physics2D.gravity调优实战在开发2D平台游戏时，角色的跳跃手感直接影响游戏体验的核心乐趣。许多新手开发者常遇到一个典型问题：明明实现了基础跳跃功能，角色却像气球一样轻飘飘地下落，缺乏经典…...

2026/4/27 13:41:40 阅读更多 →

用Python玩转PostgreSQL向量搜索：手把手教你安装pgvector插件并实战AI应用

用Python玩转PostgreSQL向量搜索：手把手教你安装pgvector插件并实战AI应用在AI技术席卷各行各业的今天，向量数据库已成为构建智能应用的核心基础设施。PostgreSQL凭借其强大的扩展能力，通过pgvector插件实现了高效的向量存储与检索功能&…...

2026/4/27 13:39:45 阅读更多 →

保姆级避坑指南：用MIM搞定MMSegmentation 2.0.0安装，告别版本兼容性报错

深度学习语义分割实战：MMSegmentation 2.0极简安装与避坑手册在计算机视觉领域，语义分割技术正以惊人的速度重塑着医疗影像分析、自动驾驶和工业质检等场景的应用边界。作为OpenMMLab生态中的重要成员，MMSegmentation 2.0凭借其模块化设计和…...

2026/4/27 15:19:20 阅读更多 →

Chrome-GPT：将大语言模型深度集成到浏览器的开发实践

1. 项目概述：当浏览器插件遇上大语言模型最近在折腾一个挺有意思的开源项目，叫“Chrome-GPT”。光看名字，你大概就能猜到它的核心玩法：把当下最火的大语言模型（LLM）能力，直接集成到我们每天都要…...

2026/4/27 5:26:31 阅读更多 →

别再用Node.js写MCP网关了！C++ 2024性能基准测试：相同硬件下吞吐量超Go 3.8倍，延迟降低62%

更多请点击： https://intelliparadigm.com 第一章：MCP协议核心原理与C网关设计全景概览 MCP（Modular Communication Protocol）是一种面向微服务间低延迟、高可靠通信的二进制协议，其核心在于“模块化帧结构”与“状态…...

2026/4/27 15:19:20 阅读更多 →

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化【免费下载链接】Newtonsoft.Json Json.NET is a popular high-performance JSON framework for .NET 项目地址: https://gitcode.com/gh_mirrors/ne/Newtonsoft.Json Newtonsoft.Json&#xff08…...

2026/4/27 4:01:07 阅读更多 →