摘要我们研究预测性多语言评估即当某个任务在目标语言上缺乏直接评测结果时如何估计模型在该任务上的表现。这一问题在多语言部署场景中十分常见——评测覆盖往往稀疏不同语言、任务和模型家族之间的公开证据也极不均衡。我们构建了一个受控的评测基准涵盖六项任务和五种证据情景共包含一千五百个问题。该基准将可访问的证据与真实答案相分离从而能够评估那些必须从不完整的文献证据中推断缺失结果的系统。我们还提出了Litmus (Re)Agent——一个基于有向无环图编排的智能体系统它将查询分解为若干假设检索证据并通过特征感知的聚合方式来合成预测。在六个对比系统中Litmus (Re)Agent取得了最佳的综合表现尤其在直接证据薄弱或缺失的迁移主导情景中获得了最大的提升。这些结果表明结构化的智能体推理是在不完整证据下进行多语言性能估计的一种有前景的方法。引言大型语言模型正日益被期望在众多任务和众多语言上运行然而多语言评测仍然高度不完整。对于许多任务–模型–语言组合尤其是在低资源环境下直接的评测结果往往缺失、散见于各篇论文中、在不可比的条件下报告或者复现成本过高。因此实践者在进行部署和模型选择决策时常常无法获得理想中所需的精确证据。这就引出了一个实际问题当某个任务在目标语言上缺少直接评测结果时模型在该语言上的表现会如何我们将此称为任务–模型–语言预测问题。现有方法只能部分解决这一问题。多语言评测套件扩大了评测覆盖范围但仍然留下了任务–模型–语言空间中大片未被观察的区域。预测性迁移方法使用类型学、表征或信息论信号但通常依赖固定特征而非对科学证据进行推理。以大型语言模型作为评判的方法可以规模化评测但并不能直接从不完整的文献证据中解决缺失结果预测的问题而且还引发了关于偏差和可复现性的担忧。较新的智能体系统能够从研究论文中检索和综合信息但在系统性的证据限制条件下进行预测性推理仍然未被充分探索。因此该领域仍然缺乏一个用于研究系统如何从不完整的文献证据中推断缺失的多语言性能的受控框架。为了填补这一空白我们同时引入了一个评测基准和一个系统。首先我们构建了一个用于预测性多语言评估的受控基准。该基准包含六项任务和五种证据情景下的一千五百个问题并将推理时可访问的证据与真实答案相分离。系统仅使用一个缩减后的论文语料库进行评估而答案则定义自一个更大的组合语料库。这使得我们能够在不同证据条件下对预测性推理进行受控研究。该基准涵盖两种互补的能力数值性能预测和比较性多语言推理。其次我们提出了适用于该场景的Litmus (Re)Agent——一个基于有向无环图编排的智能体系统。该系统将查询分解为假设检索基于引文的证据提取语言层面和任务层面的信号并将它们聚合成最终预测。相对于较早的基于有向无环图的系统我们的版本强化了专家知识检索扩展了配备语言特征库的编码器支持并改进了提示策略以实现更稳定、更贴近专家思维的推理。我们将Litmus (Re)Agent与五个基线系统进行比较包括较早的基于有向无环图的系统、单智能体和非有向无环图的智能体变体、直接的GPT-4.1基线以及一个通用多智能体框架。在整个基准上Litmus (Re)Agent取得了最强的综合表现在直接证据薄弱或缺失的迁移主导情景中获得了最大的提升。我们还提供了按任务、证据情景、指标类型以及内部智能体行为进行的进一步分析并开展了一项人工评估研究。我们的贡献有三点第一我们引入了一个用于不完整证据下预测性多语言评估的受控基准涵盖六项任务、五种证据情景以及数值预测和比较性推理两种能力第二我们提出了Litmus (Re)Agent一个基于有向无环图编排、基于引文检索的系统用于从不完整的文献证据中估计多语言性能第三我们提供了全面的实证分析包括与五个基线的比较、按任务和证据情景的细分、内部智能体行为诊断以及一项人工评估研究。