1. 项目缘起当大模型“上网”成为刚需我们如何衡量它的“搜商”最近两年大语言模型LLM的能力边界被不断拓宽从最初的文本生成、代码编写到现在的多模态理解、工具调用一个核心的趋势越来越明显让大模型学会“上网”。无论是通过联网插件、内置搜索功能还是直接集成搜索引擎API让模型能够实时获取外部信息回答时效性问题或查询未包含在其训练数据中的知识已经成为几乎所有主流模型的“标配”能力。然而问题也随之而来。当用户问“帮我查一下今天北京的天气”或“最新的iPhone 15 Pro Max在京东上卖多少钱”时我们如何判断模型给出的答案是它真正“搜”出来的还是它根据过时记忆“编”出来的更进一步当问题涉及非英语世界的信息比如“帮我找一下日本京都最近新开的米其林三星餐厅”或“查询巴西最新的个人所得税申报政策”模型的多语言搜索能力又表现如何这正是“MARCA”这个基准测试试图回答的核心问题。它不是一个简单的“搜索-回答”正确率测试而是引入了一套名为“清单评估”的精细化方法来系统性地评估多语言大模型在网络搜索任务上的真实能力。简单来说它不仅要看模型“答得对不对”更要深挖它“是怎么答的”——其搜索行为是否合理、高效其答案是否真正依赖于检索到的信息。2. 核心痛点拆解为什么现有的评估方法“不够用”在MARCA出现之前评估大模型的搜索能力业界通常有两种主流思路但各自都存在明显的局限性。2.1 传统评估的“盲区”第一种是端到端的答案正确性评估。我们给模型一个问题允许它调用搜索工具然后直接评判最终答案的准确性。这种方法看似直接但存在一个根本性缺陷无法区分“记忆”与“检索”。一个知识渊博的模型即使不联网也可能凭借其庞大的训练数据“蒙对”很多事实性问题例如“珠穆朗玛峰的高度是多少”。这就会高估其搜索能力或者更准确地说我们测出的其实是其“记忆搜索”的混合能力而非纯粹的“搜索”能力。第二种是基于过程日志的分析。记录模型调用搜索API的查询词、返回的摘要或网页片段然后人工或通过规则判断这些中间步骤是否合理。这种方法能洞察过程但成本极高难以规模化并且严重依赖评估者的主观判断。2.2 多语言场景的“复杂性倍增”当评估范围从单一语言通常是英语扩展到多语言时上述问题会变得更加棘手。查询构造的挑战模型需要将用户以任意语言提出的问题转化为目标搜索引擎如Google、Bing能高效理解的关键词。这涉及到查询词翻译、本地化术语理解例如中文的“健康码”和英文的“health code”、以及搜索习惯的差异。信息源的质量与偏见不同语言互联网的信息密度、质量、权威性差异巨大。模型能否识别并优先选择高质量、可信的源如.gov, .edu域名或当地权威新闻媒体而非内容农场或虚假信息网站答案的整合与呈现检索到多语言、多来源的信息后模型需要正确理解、总结、并以提问语言进行回答。这个过程可能涉及跨语言的信息比对、矛盾信息的处理以及符合当地文化习惯的表述。因此我们需要一个更精细、更自动化、且专门针对多语言搜索场景设计的评估框架。MARCA的“清单评估”方法正是为此而生。3. MARCA方法论深度解读什么是“基于清单的评估”MARCA的核心创新在于其评估框架。它不再仅仅给一个最终的“对/错”分数而是将一次完整的模型搜索-回答行为分解成多个可观察、可度量的子任务并为每个子任务设计一套详细的“检查清单”。3.1 评估流程的三阶段模型MARCA将一次搜索任务抽象为三个关键阶段并为每个阶段定义了具体的评估维度查询构造阶段模型根据用户问题生成搜索查询词。评估清单相关性生成的查询词是否与用户意图高度相关完整性是否包含了问题中的关键实体和约束条件例如“2023年诺贝尔文学奖得主”中“2023年”是关键约束遗漏会导致结果过时。有效性查询词是否符合目标搜索引擎的语法习惯例如是否错误地包含了自然语言句子而非关键词。多语言适配对于非英语问题生成的查询词是直接翻译还是进行了本地化优化例如将“法国的国庆日”转化为法语查询 “jour de la Bastille 2024” 比直接翻译 “French National Day” 更有效。信息检索与筛选阶段模型接收到搜索引擎返回的摘要snippets或链接后需要判断哪些信息是相关的、可信的并可能进行点击查看详情。评估清单来源权威性识别模型是否倾向于选择来自权威域名如政府、大学、主流媒体的结果时效性判断对于时间敏感问题模型是否优先选择了最新的结果相关性过滤模型能否排除那些虽然包含关键词但文不对题的结果多语言信息处理当检索结果包含多种语言时模型是否能正确理解并提取所需语言的信息答案生成阶段模型基于检索到的信息生成最终答案。评估清单忠实性答案是否严格基于检索到的信息而非模型的内生知识或“幻觉”归因清晰性答案是否明确指出了信息的具体来源例如“根据BBC在2024年5月的报道...”完整性答案是否全面回答了问题的所有子部分多语言回答质量用目标语言生成的答案是否流畅、自然、符合该语言的表达习惯3.2 自动化评估如何实现为每个阶段手动打分显然不现实。MARCA通过设计巧妙的“基于文本的度量”和“基于模型的度量”来实现自动化。对于查询词和答案文本可以使用传统的文本相似度度量如ROUGE, BLEU或更先进的基于嵌入向量的相似度如余弦相似度来与“黄金标准”进行比对。对于更复杂的判断如来源权威性、忠实性则利用一个“裁判员”大模型通常是比被测模型更强大的模型如GPT-4来根据预先定义好的清单规则进行评分。例如向裁判员模型提供用户问题、模型生成的查询词、以及搜索引擎返回的前几条结果摘要然后提问“请判断这个搜索查询是否包含了问题的所有关键实体和时效性约束请以‘是’或‘否’回答并简要说明理由。”构建测试集MARCA的测试集包含来自不同领域时事、科技、文化等、不同语言、且需要实时网络信息才能回答的问题。每个问题都配有“黄金标准”的查询词、预期的相关来源列表以及标准答案用于自动化对比。这种方法将主观评估转化为一系列客观、可重复的二进制或标量判断大大提升了评估的规模化和可靠性。4. 从理论到实践如何利用MARCA的思维评估你自己的AI应用即使你不直接运行MARCA基准测试其方法论对任何集成搜索功能的AI应用开发都有极强的指导意义。我们可以将其思想“降维”应用到日常的模型能力评估和优化中。4.1 设计你自己的“迷你检查清单”针对你的应用场景定义几个关键评估点。例如你开发的是一个跨境电商客服机器人需要查询多国物流政策查询构造检查自动化记录机器人生成的搜索查询抽样检查是否将用户问题“德国到中国的海运时效和关税”正确分解为“德国 海运 中国 时效”、“德国 出口 中国 关税 政策 2024”。人工检查对于非英语国家是否使用了当地语言的正确术语如德语“Zoll”关税而非英文“tax”。信息源检查自动化分析机器人引用的链接域名统计来自各国官方海关网站如*.zoll.de, *.customs.gov.cn的比例。人工抽样检查对于“意大利艺术品的出口限制”机器人是否引用了意大利文化遗产部的官方文件而非某旅游博客。答案生成检查自动化使用文本相似度工具对比机器人答案与它实际检索到的网页摘要内容确保答案核心事实均来自检索结果。人工评估答案是否清晰标注了信息来源例如“根据德国海关总署Zoll官网2024年3月更新信息显示...”。4.2 构建一个简单的评估流水线你不需要复杂的系统用脚本和电子表格就能开始收集测试用例整理50-100个你的业务中典型的需要搜索的问题覆盖主要支持的语言和场景。为每个问题手动编写一个“理想”的搜索查询和答案作为参考。运行测试让你的AI应用处理这些问题并记录下它实际生成的查询词、它最终引用的前3个网页链接/摘要、以及它生成的答案。执行评估对于查询词可以计算其与“理想查询”的关键词重叠率。对于引用来源可以维护一个“可信域名列表”计算引用可信来源的比例。对于答案可以请团队同事进行盲测判断答案是否正确且信息源自引用忠实性。分析与迭代分析失败案例。是查询词太模糊是模型无法识别权威网站还是总结时扭曲了原文意思针对性地调整你的提示词工程、信息过滤逻辑或后处理规则。4.3 一个具体的避坑案例时效性陷阱在我参与的一个新闻摘要项目中我们曾遇到一个经典问题。模型被要求搜索“某科技公司最新财报”。它的查询词是“某公司财报”这看起来没问题。它甚至引用了一个权威财经网站的链接。但答案给出的营收数据却是上一季度的。问题出在哪通过类似MARCA的清单分析我们发现查询阶段模型生成的查询词缺失了关键约束“最新”或“2024年Q1”。这导致搜索引擎返回的结果排序中可能最热门的仍是上一季度的分析文章。检索阶段模型虽然选择了权威来源但没有检查文章的发布日期。它可能只是提取了摘要中第一个出现的数字。生成阶段答案没有注明数据对应的财季缺乏归因。我们的修复措施是在系统提示词中强制要求“对于任何涉及数据、事件、价格的问题必须在搜索查询中明确包含‘最新’、‘2024年’等时效性关键词。”在信息处理流水线中增加一个日期提取和校验模块优先选择日期最新的片段。在答案生成模板中强制要求以“根据[来源名称]于[发布日期]发布的报道...”的格式开头。经过这些调整该类问题的准确率得到了显著提升。这个案例充分说明将搜索能力拆解评估能帮助我们精准定位瓶颈所在。5. 超越基准从评估到能力提升的思考MARCA基准测试为我们提供了一面镜子清晰地照出了当前大模型在“上网冲浪”时的各种笨拙表现。但它的价值远不止于打分和排名。更重要的是它为我们指明了提升模型搜索能力的具体方向。5.1 提示词工程的新维度传统的提示词优化主要关注最终答案的格式和质量。在搜索增强的场景下提示词需要被赋予新的使命指导模型的搜索行为。查询词生成指令可以在系统提示中加入“请将复杂问题分解为2-3个简洁的关键词搜索查询避免使用完整的句子。确保包含所有关键的实体、时间、地点等约束条件。”来源批判性指令“在引用信息时请优先选择以.gov, .edu, .org结尾的官方网站或国际知名媒体如BBC, Reuters。对于任何数据请注明其发布日期。”归因强制指令“你的每一个事实性陈述都必须基于本次检索到的内容并明确指出是来自哪个搜索结果摘要例如根据摘要1...。不要依赖你训练数据中的记忆。”5.2 工具调用范式的优化目前大多数模型通过简单的函数调用如search(query: str)来使用搜索工具。我们可以设计更精细的工具search_with_filters(query: str, region: str, freshness: str)允许指定搜索区域如“country:JP”和时效性如“past month”。get_page_content(url: str)在搜索返回摘要后如果模型对某个结果不确定可以主动调用此工具获取全文进行深度核实。translate_for_search(text: str, target_lang: str)对于一些本地化极强的内容模型可以先翻译关键词再用目标语言搜索可能比直接用源语言搜索效果更好。通过为模型提供这类更强大的“搜索工具箱”并训练其学会在复杂情境下组合使用这些工具可以显著提升其解决复杂信息需求的能力。5.3 持续评估与迭代循环模型的搜索能力不是一劳永逸的。互联网在变用户的问题在变搜索引擎的算法也在变。因此建立一个像MARCA理念那样的持续评估循环至关重要。监控在生产环境中抽样记录用户与搜索增强型AI的对话日志。标注定期如每周从日志中抽取一批案例由人工根据简化版的“清单”进行标注判断查询、检索、答案各阶段的质量。分析识别出新的、高频出现的失败模式例如最近很多用户问“Sora AI视频模型的候补名单怎么加”但模型总找不到官方入口。干预根据分析结果更新提示词、优化工具调用策略、或者补充特定领域的搜索知识。回归测试将新发现的典型失败案例加入你的自动化测试集确保后续的优化不会引入倒退。这个过程本质上就是将MARCA的基准测试思想“产品化”、“常态化”使其成为驱动你AI应用搜索能力持续进化的核心引擎。在我个人看来MARCA这类基准测试的出现标志着大模型评估正在从一个“黑盒艺术”走向“白盒科学”。它告诉我们评估一个智能体不能只看它最终是否抵达了终点更要看它选择路径是否合理、途中决策是否明智。对于网络搜索这项将长期作为大模型核心辅助能力的功能而言这种细致入微的评估视角无疑是我们构建更可靠、更透明、更智能的AI应用过程中不可或缺的一盏指路明灯。未来随着多模态搜索、复杂推理式搜索等更高级场景的出现对评估方法的要求只会更高而MARCA已经为我们开了一个好头。