小模型也能做 Agent?阿里最新的 AgenticQwen 论文讲了什么
上周四阿里团队在 arXiv 上发布了关于 Agent 的论文《AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use》。这篇论文讨论了一个很实际的工程问题在真实的工业场景中Agent 往往不只是要会聊天还要具备多步推理、调用工具的能力。但受限于工业生产环境对成本的控制和延迟的要求不适合把所有任务都交由大模型来处理。因此阿里团队提出了 AgenticQwen一组小型智能体语言模型主要包括 AgenticQwen-8B 和 AgenticQwen-30B-A3B。AgenticQwen 主要基于合成数据并结合少量开源数据通过多轮强化学习 RL 训练而成。整个训练框架结合了推理强化学习 (Reasoning RL) 与智能体强化学习 (Agentic RL) 并引入双数据飞轮 Dual Data FlyWheels这一数据生成和训练迭代机制让训练任务随着模型能力的提升不断加大难度。从论文定位上来看AgenticQwen 并不是要证明小模型可以替代大模型而是尝试回答一个具体问题对于高频、相对标准化、可验证的工具使用任务能否通过专门的训练机制让较小模型获得更好的 Agent 行为能力。此外论文明确区分了复杂开放性任务和标准化工具任务对于高度专业的任务大模型仍然是必要的但对于订票、搜索、数据分析等更常见的工具使用场景小模型具有降低服务成本和延迟的优势。内容目录本文主要介绍四个部分AgenticQwen 的核心问题为什么工业 Agent 系统会需要小模型以及这类场景和普通聊天有何区别。双数据飞轮论文提出推理飞轮 reasoning data flywheel 和智能体飞轮 agentic data flywheel用来持续生成更难的训练样本。实验结果主要看 TAU-2、BFCL-V4 Multi-turn以及工业 Agent 系统中的 WebWalker、XBench、GAIA 结果。局限性长上下文能力、Qwen 模型依赖以及更偏向Qwen 自己不一定能直接推广到其他模型。论文的核心贡献这篇论文的核心贡献可以概括为三点提出 AgenticQwen 系列小型 Agent 模型。这些模型使用合成数据和少量开源数据通过多轮强化学习训练目标是提升小模型在多步推理和工具调用任务中的表现。论文提出了 Dual Data Flywheels也就是「双数据飞轮」。推理飞轮负责从模型失败的样本中构造更难的、可被验证的推理问题智能体飞轮负责把原本线性的工具调用流程扩展成多分支行为树让模型在训练中接触更多条件分支、环境变化和用户干扰以便模拟真实的工业应用场景。实验数据验证论文在公开 benchmark 测试和工业 Agent 系统中评估模型效果。结果显示AgenticQwen-8B 和 AgenticQwen-30B-A3B 相比基础 Qwen 模型的对应版本性能有明显提升并在部分任务上缩小了与 Qwen3-235B-A22B-Instruct 的差距。聊天模型和 Agent 模型的不同和普通语言模型只要学习如何根据输入生成文本不同Agent 模型还需要在特定环境中行动。比如用户让模型订票、查询订单、生成分析报告它就需要判断是否要调用工具、调用哪个工具如何处理工具返回结果以及是否需要继续追问用户获取更多信息。论文认为工业 Agent 系统中有不少任务其实是有固定流程的。它们未必需要大模型的全部能力但很需要模型稳定地完成多步工具调用。AgenticQwen 的目标就是针对这类高频、流程相对明确的任务训练小模型稳定调用工具和执行任务的能力而不是追求在所有开放式任务上超过大模型。这一区别很重要。AgenticQwen 关注的不是聊天能力而是在工具环境中模型表现出来的决策能力模型是否能根据当前状态选择下一步动作是否能在用户信息不完整或有误导时依旧保证流程的正确。双数据飞轮让训练样本逐轮变难论文认为单纯地增加合成数据的数量并不一定能持续提升模型能力。一个原因是合成数据可能逐渐同质化导致强化学习信号变弱。为了解决这个问题论文提出了双数据飞轮让训练数据随着模型表现动态更新。第一个飞轮Reasoning Data Flywheel完成一轮推理强化学习后系统会收集模型没有解出的题目再基于这些失败样本生成更难的变体。论文中这一扩展主要用于数学任务因为数学问题通常有唯一且容易验证的答案。新训练数据的生成方式主要是先通过 self-instruct expansion 和 persona injection 生成更难、更丰富的题目再通过一致性过滤控制数据质量。论文中Qwen3-235B 会对候选题目求解三次只有三次最终答案一致的样本才会保留。第二个飞轮Agentic Data Flywheel这部分是针对工具使用的任务。初始任务通常是线性流程比如“查询航班 → 预订 → 确认”。但在真实场景中工具返回的不同结果会引出不同的分支航班是否售罄、是否会延误用户是否为金卡会员、是否满足平台补偿规则等等。论文通过行为树扩展把单一路径变成多分支 workflow并通过 branch-to-task inversion 反向生成能触发这些分支的新任务。值得一提的是论文还加入了对抗式模拟用户。例如用户声称自己应该获得现金补偿但实际情况是他只是普通会员不符合获得现金补偿的条件。这时候模型就需要调用工具核验他的会员状态再根据平台补偿规则选择正确的分支流程而不是直接顺从用户请求。训练环境模拟用户、工具和奖励AgenticQwen 的 Agentic RL 可以理解为是一个模拟任务环境。模型与模拟用户交互调用模拟工具并根据任务规则完成目标。论文中用户和工具都由 Qwen3-235B 在 mock environment 中模拟奖励由基于任务的 rubric 给出。任务会被拆成可验证的子目标最终奖励根据完成子目标的比例落在 [0, 1] 范围内来确定。这一设计的目标是把 Agent 任务从输出正确格式转向完成可验证的子目标。比如在订票流程中奖励可以检查模型是否正确地调用了更新订单状态的工具。这比单纯判断最终回答是否自然更适合训练模型的工具调用和多步任务执行能力。实验结果公开工具环境 benchmark论文在 TAU-2 和 BFCL-V4 Multi-turn 上评估模型。TAU-2 覆盖航空 Airline、电信 Telecom、零售 Retail 这三类场景来评估模型在真实世界中的可靠性BFCL-V4 Multi-turn 用来评估模型多轮调用工具的能力。其中TAU-2 包含约 300 个多轮任务BFCL-V4 Multi-turn 包含约 800 个任务。论文 Table 1 显示了各模型的平均分具体如下模型TAU-2 / BFCL-V4 平均分Qwen3-8B23.8AgenticQwen-8B47.4Qwen3-30B-A3B-Instruct36.2AgenticQwen-30B-A3B50.2Qwen3-235B-A22B-Instruct52.0这组结果可以说明两点AgenticQwen-8B 相比基础 Qwen3-8B 有明显提升47.4 vs 23.8。AgenticQwen-30B-A3B 在这组 benchmark 上接近 Qwen3-235B-A22B-Instruct50.2 vs 52.0但不能据此推断它在所有任务中的能力都接近 235B 模型。论文还说明AgenticQwen-30B-A3B 是 MoE 模型每次推理激活约 3B 参数AgenticQwen-8B 是 Dense 模型推理时会激活更多参数。多轮数据飞轮是否有效论文 Figure 2 展示了模型从 Round 0 到 Round 3 的训练变化。数据表明 Qwen3-30B-A3B 和 Qwen3-8B 在 TAU-2 和 BFCL-V4 Multi-turn 的多个子任务上表现能力有所提升。论文指出三轮飞轮之后模型的表现已经接近用于生成合成数据的强模型因此没有继续扩展更多轮。这部分结果说明数据飞轮不只是训练前的数据构造方法而是参与了多轮强化学习过程。每一轮模型暴露出的新问题会继续推动下一轮数据扩展。在工业 Agent 系统中的评估论文还在一个工业 Agent 系统中对 AgenticQwen 的表现进行了评估。该系统部署在云产品场景中可以在沙箱环境中调用工具完成生成折线图、总结一周工作文档等任务。论文提到AgenticQwen 已经接入该系统进行内部试点当系统预测某个任务会落在模型能力范围内时部分请求会自动路由给 AgenticQwen。论文 Figure 3 给了一个企业数据分析案例用户要求分析 Q3 数据Agent 需要通过 SQL 查询销售数据、解析用户的 JSON 日志并对 PDF 格式的市场趋势报告做 RAG最后生成 BI 简报。论文认为这个例子主要考察了模型的 schema 发现、跨数据源推理和动态工具编排能力。搜索和数据分析的 benchmark在工业系统的能力评估中论文还报告了模型在 WebWalker、XBench 和 GAIA 这三个搜索 benchmark 中的结果。上表显示模型WebWalkerXBenchGAIAQwen3-235B-A22B-Instruct59.548.048.5Qwen3-30B-A3B-Instruct45.030.037.3AgenticQwen-30B-A3B52.547.041.7其中在 XBench 上AgenticQwen-30B-A3B 从基础版 Qwen3-30B-A3B-Instruct 的 30.0 提升到 47.0论文标注为 17.0。论文还显示了 GAIA 上各模型的平均端到端推理时间模型平均推理时间秒Qwen3-235B-A22B-Instruct449.5Qwen3-30B-A3B-Instruct355.6AgenticQwen-30B-A3B344.1作者推测AgenticQwen-30B-A3B 耗时更少可能是因为它经过了 Agent 训练之后任务规划更有效减少了一些不必要的工具调用或者交互步骤。这只是作者对结果作出的可能性解释不是严格因果证明。局限性局限性包括长上下文能力限制、对 Qwen 模型家族的依赖以及模拟环境和真实系统之间的差距。长上下文能力AgenticQwen 主要关注推理和工具调用。对于高度开放、需要长上下文能力的 Agent 行为小模型仍有困难。论文特别提到deep-search 任务需要很长上下文可能超过 8B 和 30B 模型的原生能力在工业 benchmark 分析中作者也指出 8B 和 30B 模型的 40K 长文上限可能会限制搜索任务的表现。Qwen 模型依赖训练过程比较依赖 Qwen 模型。Qwen 模型不只是被训练对象还承担了数据生成器、模拟器和评估器的角色生成新样本、模拟用户和工具环境并根据任务规则给模型表现打分。论文认为这在成本效率上有优势但也会造成结果更偏向Qwen 自己不一定能直接推广、应用到其他模型。因此作者提倡未来用其他模型来验证同一框架。模拟环境和真实环境差距最后模拟环境和真实线上环境仍有差距。行为树和对抗式用户可以增加训练复杂度但真实业务还需要权限控制、规则校验、日志追踪、异常处理和人工介入。小结AgenticQwen 这篇论文的核心思路是通过专门的数据生成和强化学习流程提升小模型在工具使用和多步任务执行中的表现。它的关键设计是双数据飞轮。Reasoning Data Flywheel 从模型失败样本中生成更难的可验证推理题Agentic Data Flywheel 把线性工具流程扩展成多分支行为树让模型在训练中接触条件分支、环境变化和用户干扰。从实验结果看AgenticQwen-8B 从基础 Qwen3-8B 的 23.8 提升到 47.4AgenticQwen-30B-A3B 达到 50.2接近 Qwen3-235B-A22B-Instruct 的 52.0。在工业搜索与数据分析 benchmark 上AgenticQwen-30B-A3B 也比基础 Qwen3-30B-A3B-Instruct 有提升。因此这篇论文更适合被理解为一条小模型 Agent 训练路线而不是小模型全面替代大模型的证据。它说明在任务可模拟、流程可验证、反馈可自动计算的场景中小模型可以通过更有针对性的训练缩小与更大模型在特定 Agent 任务上的差距。