多模态代理推理框架SenseNova-MARS核心技术解析
1. 多模态代理推理与搜索框架概述多模态代理推理与搜索是当前人工智能领域的前沿研究方向它通过结合视觉语言模型VLMs的强大理解能力与外部工具的动态调用机制实现了对复杂视觉任务的智能化处理。传统VLMs虽然在文本推理和简单视觉理解方面表现出色但在处理知识密集型和高分辨率视觉任务时仍存在明显局限。SenseNova-MARS框架的创新之处在于它通过强化学习技术使模型能够自主决策何时以及如何调用图像搜索、文本搜索和图像裁剪工具形成连贯的多步骤推理过程。在实际应用中这种能力尤为重要。例如当面对一张高分辨率赛车照片时模型可能需要先裁剪出赛车服上的小logo区域然后进行图像搜索识别品牌再通过文本搜索查询该品牌的创立年份最后结合车手的出生年份计算出时间差。这种动态工具调用和跨模态推理的能力正是SenseNova-MARS区别于传统方法的核心优势。2. SenseNova-MARS的核心技术解析2.1 多工具动态集成机制SenseNova-MARS框架集成了三种关键工具文本搜索、图像搜索和图像裁剪。这三种工具不是孤立运作而是通过模型的自主决策形成有机协作文本搜索工具基于Serper Search API实现模型生成的查询词会被发送到搜索引擎返回的结果会先经过Qwen3-32B模型摘要处理以避免信息过载。例如查询castore founding year时系统会返回精简后的关键信息。图像搜索工具同样基于Serper Image Search API模型可以提交图像或图像区域进行反向搜索。在实际训练中为提高效率所有训练数据的图像搜索结果都预先获取并缓存。图像裁剪工具这是处理高分辨率图像的关键模型通过指定归一化坐标[0.0,1.0]的边界框可以聚焦到图像的特定区域。例如在赛车照片中准确裁剪出只占图像5%面积的小logo。这三种工具的调用不是预设的固定流程而是模型根据当前推理状态自主决定的。这种动态性使得SenseNova-MARS能够灵活应对各种复杂场景。2.2 两阶段训练策略SenseNova-MARS采用独特的冷启动监督微调(SFT)加强化学习(RL)的两阶段训练方法冷启动SFT阶段 这个阶段使用约3000个高质量样本通过监督学习教会模型基本的工具使用模式和交互协议。数据通过严格的三步流程获取(1)从FVQA、Pixel-Reasoner等数据集中筛选困难样本(2)用Gemini-2.5-Flash合成解决方案轨迹(3)通过GPT-4o验证质量。虽然数据量小但质量极高为后续RL打下坚实基础。RL阶段 在冷启动基础上使用提出的BN-GSPO算法进行强化学习。与标准GSPO相比BN-GSPO通过两阶段优势归一化组内和批内显著提高了训练稳定性。具体来说组内归一化对同一提示生成的多个响应先进行组内标准化公式2批内归一化再将标准化后的优势值在整个批次中进行二次归一化公式3这种双重归一化机制有效解决了不同提示间奖励尺度和轨迹长度差异导致的训练不稳定问题。最终的目标函数公式4还加入了KL散度项防止策略偏离参考模型太远。2.3 BN-GSPO算法详解BN-GSPO算法是SenseNova-MARS的核心创新之一它针对多工具调用场景中的特殊挑战进行了优化序列级优化由于每个轨迹可能包含不同工具的组合调用传统逐token优化不再适用。BN-GSPO在序列级别进行优化考虑整个交互过程的累积奖励。长度归一化重要性采样为避免长轨迹主导优化过程使用长度归一化的重要性权重sb,g(θ)确保长短轨迹对更新的贡献均衡。双重奖励设计奖励函数包含准确性奖励(Racc)和格式奖励(Rformat)分别由LLM-as-a-judge评估。这种设计既保证答案正确性又确保工具调用的规范性。实验表明BN-GSPO相比标准GSPO在训练稳定性和最终性能上都有显著提升特别是在处理复杂、多回合的工具调用轨迹时优势明显。3. HR-MMSearch基准测试与分析3.1 基准设计理念为全面评估模型在高分辨率、知识密集型视觉任务上的能力研究团队构建了HR-MMSearch基准。该基准具有三个鲜明特点高分辨率图像所有图像均为4K分辨率包含大量细节信息小物体或文字可能只占几个像素。时效性保证图像全部来自2025年的近期事件有效避免预训练数据泄露问题。领域多样性覆盖体育、休闲文化、科学技术等8个领域如图5所示确保评估全面性。3.2 基准测试结果SenseNova-MARS在HR-MMSearch上取得了54.43的优异成绩超越Gemini-3-Pro(48.52)和GPT-5.2(48.20)。这一结果验证了其在复杂视觉搜索任务上的优势。具体分析表明多工具协同效应相比仅使用搜索或仅使用裁剪的模型SenseNova-MARS通过工具间的动态配合在细粒度视觉理解上表现更优。高分辨率优势在HR-Bench 4K和8K测试中SenseNova-MARS-32B分别达到90.2和86.6展示了其对图像细节的出色处理能力。知识检索能力在MMSearch等搜索导向型测试中其74.3的得分也超过了所有对比模型。3.3 综合性能对比从表1和表2的全面测试可以看出规模优势32B模型在各测试中普遍优于8B模型但即使是8B版本也超过了多数同类模型。工作模式差异代理模式可使用工具相比直接回答模式性能提升显著如SenseNova-MARS-8B在代理模式下平均得分提升12.68。开源优势作为开源模型SenseNova-MARS超越了包括GPT-5.2、Gemini-3-Pro在内的多个专有模型体现了其技术先进性。4. 实际应用与部署考量4.1 系统架构设计在实际部署SenseNova-MARS时需要考虑以下架构要素工具服务层需要构建稳定的搜索和图像处理服务特别是图像搜索API需要处理高并发请求。模型服务层建议使用vLLM等高效推理框架部署基础VLM以支持长序列生成。缓存机制对常见查询结果建立缓存降低API调用成本和延迟。轨迹管理需要设计高效的历史轨迹存储和检索机制支持多轮交互。4.2 计算资源需求不同规模模型的计算需求差异明显SenseNova-MARS-7B可在单张A100(80G)上运行适合中小规模应用。SenseNova-MARS-32B需要多卡并行推理推荐使用4-8张A100或H100。值得注意的是RL训练阶段资源消耗显著大于推理需要准备充足的GPU资源通常需要16-32张A100。4.3 实际应用场景SenseNova-MARS特别适合以下应用场景专业图像分析如医学影像中的细微病变识别结合文献搜索形成综合诊断建议。工业质检对高分辨率产品图像进行局部放大检查同时检索相关质量标准。教育辅助解答涉及复杂图表和公式的学术问题通过多步骤推理给出详细解释。多媒体内容理解分析视频中的特定帧识别小众物品或文字信息。5. 技术挑战与解决方案5.1 训练稳定性问题在多工具RL训练中我们遇到了几个关键挑战探索不足模型容易陷入单一工具调用模式。解决方案是采用Clip-Higher策略(ϵlow0.2, ϵhigh0.28)鼓励多样性。轨迹长度差异不同问题的解决步骤差异大。BN-GSPO的长度归一化机制有效缓解了这一问题。奖励稀疏性只有最终答案才有明确奖励。通过设计格式奖励为中间步骤提供监督信号。5.2 工具调用优化工具调用中的常见问题及解决方法过度搜索限制每轮交互的token数量最多8,192/turn累计32,768避免无限制搜索。图像裁剪冗余通过RL训练模型学会了评估裁剪必要性减少无意义操作。参数格式错误严格的格式奖励确保JSON参数始终符合规范。5.3 高分辨率处理技巧针对高分辨率图像的特殊处理分块注意力在基础VLM中实现分块注意力机制降低计算复杂度。动态缩放根据任务复杂度动态调整输入图像分辨率。区域优先级通过初步全局分析确定关键区域再针对性放大处理。这些技术创新使得SenseNova-MARS能够高效处理4K甚至8K图像而不会显著增加计算负担。