Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward

张

张建站

2026/4/22 6:38:59

10分钟阅读

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台深度绑定高性能弹性算力支持模型复现、训练、推理全流程以按需计费、低价高效破解高端算力紧缺与成本高昂难题同步Arxiv前沿论文并提供翻译、导读、分析服务支持各类大模型一键复现与数据集微调对接孵化资源助力科研成果转化同时搭载多样化AI在线课程实现理论学习与代码实操同步推进全方位覆盖AI研发、科研创新与技能学习全场景需求。大模型实验室官网链接 https://www.lab4ai.cn/arxiv?utm_sourcecsdn_daily_paper作者信息南京大学新型软件技术国家重点实验室、南京大学智能科学技术学院、阿里巴巴高德地图研究背景大语言模型正从被动对话系统演进为可自主调用工具、完成复杂推理的智能体系统模型行为从单轮回复转变为包含用户输入、推理、工具执行与环境反馈的轨迹序列。传统基于人类反馈的强化学习RLHF中奖励模型RM是模型对齐的核心信号源但现有奖励模型评估基准存在明显缺陷主流基准仅聚焦短上下文场景下的单轮回复偏好评估缺乏对复杂推理过程与多轮交互的覆盖长上下文奖励模型研究多依赖人工扩展上下文无法刻画智能体工作流的自然复杂度与动态依赖关系专用工具使用基准仅验证单轮原子动作正确性忽略连贯的长时序规划行为评估现有方案无法在工具集成环境中对奖励模型区分优质与劣质智能体轨迹的能力进行严谨测评。智能体奖励建模需同时评估最终结果与中间步骤的合理性、一致性与安全性现有评估体系无法满足该需求。研究目的填补工具集成环境下轨迹级奖励模型专用评估基准的空白解决现有基准无法测评长时序、多步骤智能体轨迹奖励建模能力的问题。构建覆盖复杂工具使用场景的轨迹级偏好基准精准测评奖励模型在智能体规划逻辑、工具使用保真度、安全拒绝、错误恢复等维度的判别能力。提供可复用的智能体偏好数据构建方案为判别式奖励模型DRM、生成式奖励模型GRM与智能体强化学习提供高质量训练信号。诊断现有奖励模型在轨迹级评估中的失效模式为下一代规划中心型智能体的对齐研究提供方向。本文核心贡献提出首个面向复杂工具智能体的轨迹级偏好基准Plan-RewardBench覆盖安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复四大任务家族可高分辨率测评奖励模型的轨迹判别能力。设计可复用的多源智能体偏好数据构建流程融合多模型自然推演、规则扰动、最小编辑扰动三种方式为轨迹级奖励模型训练提供标准化数据方案。构建包含高质量标注与高难度负样本的数据集通过多LLM评审团元评审过滤人工审核保证标签可靠性严格控制长度、格式偏差以隔离语义失效问题。完成主流奖励模型判别式、生成式、LLM评判器的统一测评揭示不同模型在长时序轨迹下的性能退化规律与典型失效模式验证专用轨迹级奖励建模训练的必要性。研究方法1. 任务设定将基准定义为轨迹成对偏好任务每个样本包含工具环境、多轮用户交互、两条候选轨迹依据规划质量、工具接地性、恢复行为、拒绝质量等标准给出金标准偏好标签支持成对比较与单点打分两种评估模式。2. 数据来源与构建种子数据基于Toucan项目的真实MCP工具注册信息与工具执行结果候选轨迹生成使用Qwen-Agent、OpenAIAgent运行多模型、多采样参数推演获取自然成功与失败轨迹占比70%高难度负样本构建规则扰动注入约束丢失、参数错误、盲目重试等可控失效最小编辑扰动对高分轨迹小幅修改保留风格同时引入特定缺陷轨迹过滤剔除格式错误、执行失败等异常样本统计长度、轮数等特征用于分层分析。3. 场景家族与标注四大场景安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复各场景设计专属评判规则与负样本类型标注流程多LLM评审团1-5分打分→元评审处理分歧→人工分层审核→成对组装控制难度与偏差→独立成对校验确认标签。4. 评估方案测评模型判别式奖励模型DRM、生成式奖励模型GRM、通用LLM评判器输入表示统一提供工具环境、对话历史、完整轨迹固定环境与用户意图仅对比智能体轨迹差异指标与偏差控制核心指标为成对准确率采用A/B交换缓解位置偏差按轨迹长度、轮数、场景难度分层分析。研究结果整体性能Plan-RewardBench是严苛测评基准无模型在所有维度占优最优模型Qwen-Plus整体准确率69.96%长时序复杂规划任务上模型普遍难以突破70%。模型类型差异通用LLM评判器整体表现最优但长上下文退化最明显大参数量判别式奖励模型Inf-ORM-Llama3.1-70B竞争力强准确率69.21%在错误恢复场景表现突出开源判别式奖励模型在安全拒绝场景接近随机水平。场景表现安全拒绝场景极化最严重模型准确率跨度40.69%–84.80%工具无关场景易受“努力偏差”影响偏好冗余工具调用复杂规划场景随轨迹长度增加模型难以跟踪动态约束更新错误恢复场景模型难区分盲目重试与智能修复。长度敏感性轨迹长度小于4k tokens时性能稳定超过32k tokens后准确率急剧下降部分模型低于随机水平成对LLM评判器退化比单点判别式模型更剧烈。下游验证在BFCL v4工具调用任务的best-of-N重排序中Plan-RewardBench上表现更好的评判器下游任务提升更显著。总结与展望本研究提出Plan-RewardBench轨迹级奖励建模基准填补了工具型智能体长时序轨迹奖励模型评估的空白通过严谨的数据集构建与统一测评证实现有奖励模型在轨迹级判别上存在显著缺陷长时序规划、动态约束跟踪、安全拒绝等能力亟待提升为智能体对齐研究提供了关键测评与数据支撑。局限性复杂规划的金标准标签存在一定主观性工具注册库未覆盖所有专有API场景分布非均匀安全拒绝样本量较小当前仅支持英文、纯文本工具轨迹。未来展望拓展至多模态、多智能体场景的轨迹级奖励建模基于本基准训练专用轨迹级奖励模型提升长时序智能体对齐效果完善更多工具环境与任务家族扩展基准覆盖范围结合本基准的难度分级设计课程学习式奖励模型训练方案。

别再只会用Canny了！深入对比Sobel、Prewitt、LoG：OpenCV边缘检测算法选型与避坑指南

边缘检测算法深度解析：从Sobel到Canny的工程实践指南在计算机视觉领域，边缘检测是图像处理中最基础也最关键的步骤之一。许多开发者习惯性地将Canny算子作为默认选择，却忽略了其他算法在不同场景下的独特优势。本文将带您深入理解主流边缘检…...

2026/4/22 6:37:31 阅读更多 →

AD9361 LVDS接口时序详解：手把手教你搞定FPGA与射频收发器的数据对齐（附时序图分析）

AD9361 LVDS接口时序深度解析：从理论到实战的FPGA数据对齐指南当射频工程师第一次将AD9361与FPGA平台对接时，往往会被LVDS接口的时序问题困扰——明明SPI配置正确，示波器上的差分信号也看似完美，但FPGA接收到的数据却总是出现错位…...

2026/4/22 6:21:50 阅读更多 →

避开F28335存储空间配置的坑：EALLOW保护、CMD文件编写与常见错误排查

F28335存储空间深度实战：从寄存器保护到CMD文件优化第一次在CCS调试器中看到"Access to protected memory location"报错时，我正试图修改PIE向量表。这个看似简单的操作让我意识到，F28335的存储空间管理远比想象中复杂。本文将分享…...

2026/4/22 6:21:49 阅读更多 →

从T3到T5：全志工控处理器性能跃迁与工业应用场景深度解析

1. 全志T3与T5处理器核心架构解析全志T3（A40I）和T5（T507）作为两代工控处理器，在核心架构上有着显著差异。T3采用四核Cortex-A7架构，主频1.2GHz，搭配Mali400MP2 GPU，属于经典的"…...

2026/4/21 5:14:24 阅读更多 →

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全图解实战）一、前言二、列出 ES 所有索引：整体流程流程图三、Elasticsearch 列出所有索引：核心命令3.1 方法1：_cat/indices（最常用、运维…...

2026/4/21 5:14:28 阅读更多 →

SAP PI/PO HTTPS接口调用实战：从SSL证书导入到彻底告别iaik.security.ssl.SSLCertificateException

1. 当SAP PI/PO遇到HTTPS接口报错时发生了什么？ 最近在帮客户调试SAP PI系统调用外部HTTPS接口时，遇到了一个让人头疼的问题。系统在调用Swagger Petstore的API时，控制台突然抛出"iaik.security.ssl.SSLCertificateException: Peer cert…...

2026/4/21 5:14:31 阅读更多 →