多语言模型预测评估的基准与代理系统

张

张建站

2026/4/18 7:20:03

10分钟阅读

摘要我们研究预测性多语言评估即当某个任务在目标语言上缺乏直接评测结果时如何估计模型在该任务上的表现。这一问题在多语言部署场景中十分常见——评测覆盖往往稀疏不同语言、任务和模型家族之间的公开证据也极不均衡。我们构建了一个受控的评测基准涵盖六项任务和五种证据情景共包含一千五百个问题。该基准将可访问的证据与真实答案相分离从而能够评估那些必须从不完整的文献证据中推断缺失结果的系统。我们还提出了Litmus (Re)Agent——一个基于有向无环图编排的智能体系统它将查询分解为若干假设检索证据并通过特征感知的聚合方式来合成预测。在六个对比系统中Litmus (Re)Agent取得了最佳的综合表现尤其在直接证据薄弱或缺失的迁移主导情景中获得了最大的提升。这些结果表明结构化的智能体推理是在不完整证据下进行多语言性能估计的一种有前景的方法。引言大型语言模型正日益被期望在众多任务和众多语言上运行然而多语言评测仍然高度不完整。对于许多任务–模型–语言组合尤其是在低资源环境下直接的评测结果往往缺失、散见于各篇论文中、在不可比的条件下报告或者复现成本过高。因此实践者在进行部署和模型选择决策时常常无法获得理想中所需的精确证据。这就引出了一个实际问题当某个任务在目标语言上缺少直接评测结果时模型在该语言上的表现会如何我们将此称为任务–模型–语言预测问题。现有方法只能部分解决这一问题。多语言评测套件扩大了评测覆盖范围但仍然留下了任务–模型–语言空间中大片未被观察的区域。预测性迁移方法使用类型学、表征或信息论信号但通常依赖固定特征而非对科学证据进行推理。以大型语言模型作为评判的方法可以规模化评测但并不能直接从不完整的文献证据中解决缺失结果预测的问题而且还引发了关于偏差和可复现性的担忧。较新的智能体系统能够从研究论文中检索和综合信息但在系统性的证据限制条件下进行预测性推理仍然未被充分探索。因此该领域仍然缺乏一个用于研究系统如何从不完整的文献证据中推断缺失的多语言性能的受控框架。为了填补这一空白我们同时引入了一个评测基准和一个系统。首先我们构建了一个用于预测性多语言评估的受控基准。该基准包含六项任务和五种证据情景下的一千五百个问题并将推理时可访问的证据与真实答案相分离。系统仅使用一个缩减后的论文语料库进行评估而答案则定义自一个更大的组合语料库。这使得我们能够在不同证据条件下对预测性推理进行受控研究。该基准涵盖两种互补的能力数值性能预测和比较性多语言推理。其次我们提出了适用于该场景的Litmus (Re)Agent——一个基于有向无环图编排的智能体系统。该系统将查询分解为假设检索基于引文的证据提取语言层面和任务层面的信号并将它们聚合成最终预测。相对于较早的基于有向无环图的系统我们的版本强化了专家知识检索扩展了配备语言特征库的编码器支持并改进了提示策略以实现更稳定、更贴近专家思维的推理。我们将Litmus (Re)Agent与五个基线系统进行比较包括较早的基于有向无环图的系统、单智能体和非有向无环图的智能体变体、直接的GPT-4.1基线以及一个通用多智能体框架。在整个基准上Litmus (Re)Agent取得了最强的综合表现在直接证据薄弱或缺失的迁移主导情景中获得了最大的提升。我们还提供了按任务、证据情景、指标类型以及内部智能体行为进行的进一步分析并开展了一项人工评估研究。我们的贡献有三点第一我们引入了一个用于不完整证据下预测性多语言评估的受控基准涵盖六项任务、五种证据情景以及数值预测和比较性推理两种能力第二我们提出了Litmus (Re)Agent一个基于有向无环图编排、基于引文检索的系统用于从不完整的文献证据中估计多语言性能第三我们提供了全面的实证分析包括与五个基线的比较、按任务和证据情景的细分、内部智能体行为诊断以及一项人工评估研究。

大模型应用开发实战（13）——多 Agent 真的有必要吗？LangGraph 背后的分工逻辑拆解

🤵‍♂️ 个人主页：小李同学_LSH的主页 ✍🏻 作者简介：LLM学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话， 欢迎评论 💬点赞&#x1f4…...

2026/4/18 6:46:47 阅读更多 →

Windows和Office激活难题？3个简单步骤让你告别烦恼

Windows和Office激活难题？3个简单步骤让你告别烦恼【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统弹出的激活提醒而头疼吗？Office突然变成只读模式&am…...

2026/4/18 6:19:35 阅读更多 →

别再折腾Docker了！用PHPStudy 10分钟搞定OnlyOffice 9.3本地开发环境（附避坑清单）

10分钟极速搭建OnlyOffice开发环境：PHPStudy避坑指南每次接手OnlyOffice二次开发需求时，最头疼的莫过于环境搭建。传统Docker方案在Windows下总会遇到各种网络权限问题，光是解决"私有IP不允许下载文件"这类错误就能耗掉半天时间。…...

2026/4/16 15:46:17 阅读更多 →

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁【免费下载链接】PS3GameUpdateDownloader downloader for ps3 game updates (.pkg files) from official sony servers written in python 项目地址: https://gitcode.com/gh_mirrors/ps/PS3GameUpdateDownl…...

2026/4/17 12:33:06 阅读更多 →