UC Santa Cruz等发现:AI视觉模型“眼睛“出问题时,让它多想也没用
这项由加州大学圣克鲁兹分校、亚马逊、滑铁卢大学联合开展的研究发表于2026年第43届国际机器学习大会ICML 2026论文编号为arXiv:2605.20177。有兴趣深入了解的读者可以通过该编号查询完整论文。你有没有遇到过这样的经历当你带着眼镜度数不对去看一份文件时无论你怎么仔细辨认、反复确认最终看到的字依然是错的。问题不在于你脑子不够用而在于眼睛传进来的信息本就失真了。这个再简单不过的生活经验恰好揭示了当前最先进的AI视觉助手正在面临的核心困境。近年来视觉语言模型Vision-Language Models通俗来说就是能看图、能思考、能回答问题的AI取得了长足进步。研究者们为了让这类AI更聪明拼命训练它多想几步——让它在回答之前先把思考过程一步一步列出来就像数学考试要求写出解题过程一样。这种策略被称为链式思维推理在纯文字领域确实大幅提升了AI的表现。然而这项研究的团队在仔细分析了大量AI答题记录后发现了一个令人惊讶的现象对于视觉任务来说很多时候AI答错并不是因为想得不够而是因为看错了。更棘手的是一旦AI在最开始看图时就理解错了某个细节后续无论它思考多少步、反复检查多少遍图片依然会在同一个错误上打转无法自我纠正。研究团队分析了三个视觉数学数据集中Qwen3-VL-8B模型的错误答案发现其中高达86.9%的错误根源都是视觉感知出了问题——也就是说AI看错了图而不是想错了题。这个数字让研究者意识到一直以来大家把训练精力都放在提升思考能力上却忽视了看图能力这个更基础的环节。基于这一发现来自加州大学圣克鲁兹分校、亚马逊、滑铁卢大学的研究团队提出了一套全新的训练框架把AI的视觉能力拆分成三个独立的部分按照从基础到复杂的顺序依次强化就像打地基盖房子一样先把基础打扎实再往上盖墙加顶。这套方法简洁但效果显著让模型在视觉数学推理任务上提升了5.2%同时推理过程还缩短了20.8%——更准确更简洁这两件事居然同时实现了。---一、一个看似简单却困扰着整个行业的问题要理解这项研究在做什么先从一道数学几何题说起。论文中提到的一个典型案例给AI一张几何图形图上标着几段线段的长度题目问某条线段BD的长度。正确解题需要先认清图中各个切点的位置关系再用相关的数学定理推导。当AI在最开始就把两段线段的长度对应关系读错时——比如把AP读成了5把AC读成了3而实际上两者应该相等——后续的推理就全部建立在这个错误的基础上了。AI意识到了矛盾于是反复重新检查图片每次检查的结论依然是AP5、AC3因为它的眼睛视觉感知模块没有得到任何实质性的改善看到的还是同一个错误的信息。最终AI产生了大量繁复的推理文字却无法得出正确答案。与之形成鲜明对比的是如果AI一开始就正确识别了图中的几何关系知道ACAB3那么整个推理过程可以极为简洁——直接用切线长度相等的性质两三步就得出BD2干净利落。这个对比说明了一件重要的事思考的质量依赖于感知的准确性。感知错了再多的思考只是在放大错误。研究团队把这一现象总结为一条核心判断**更长的思考无法修复错误的感知**。这听起来很直白但它对整个AI视觉推理领域的训练方式提出了根本性的质疑——如果大家一直在努力的方向增强推理并不是解决问题的关键所在那真正应该做的是什么---二、把AI的能力拆成三层一层一层地打磨研究团队的核心思路是与其把各种能力混在一起训练不如把它们分开针对每一种能力单独强化再按照合理的顺序组合起来。他们把视觉语言模型的能力分成了三个层次。第一层是视觉感知也就是AI能不能准确看清图片里的内容——细节在哪、物体是什么颜色、空间位置关系如何、有几个物体、图上的字怎么写。这是最基础的能力相当于人的眼力。第二层是文字推理也就是当题目完全以文字形式呈现时AI能不能做多步骤的逻辑推理和数学运算。这相当于人的思维能力不依赖视觉。第三层是视觉推理这才是最终的综合能力——既要看清图又要在此基础上进行复杂推理比如解几何题、分析图表趋势、理解示意图中的逻辑关系。这三层能力的关系用盖房子来比喻再恰当不过视觉感知是地基文字推理是承重墙视觉推理是最终完工的建筑。如果地基没打好墙盖得再高也不稳。基于这一认识研究团队设计了分阶段训练方案先专门训练视觉感知能力再训练文字推理能力最后训练视觉推理能力三个阶段依次进行每个阶段使用专门针对该能力设计的训练数据。这个过程被命名为分阶段后训练框架。---三、最难的部分怎么教AI看得更准训练文字推理和视觉推理已经有很多成熟的方法和现成的数据集可以用。但训练视觉感知这件事听起来简单实际上有个微妙的挑战你怎么知道一道题考的是感知而不是考的是推理研究团队为此专门设计了一套数据筛选流程堪称精妙。他们首先从一个名为DOCCI的数据集入手——这个数据集包含约1.5万张图片每张图片都配有一段极其详细的文字描述把图中的每个细节都用语言表达清楚了。团队让另一个强大的语言模型Qwen2.5-72B阅读这些文字描述然后自动生成问答题——问题专门针对图中的视觉细节比如图中有几盏路灯或哪个字母看起来是最近刷新过的这样问题的答案可以从文字描述中找到但原始依据藏在图片里。接下来是关键的筛选步骤——研究团队把这些问题分别用两种方式测试AI一种是给AI看图片来回答另一种是给AI看文字描述来回答。如果AI看了文字描述能回答对但看了图片却回答错了那这道题就被保留下来了。为什么因为这恰好说明这道题所需的信息在图中客观存在只是AI的视觉感知没能正确提取出来——这正是感知缺陷的完美体现。这个筛选过程还用了两个不同规格的AI模型Qwen2.5-VL-7B和Qwen2.5-VL-32B来交叉验证确保筛出来的题目确实是感知难题而非其他类型的难题。最终得到的这批数据就专门用来训练AI的视觉感知能力。举两个具体例子来说明这类数据长什么样。第一题一张夜晚桥梁的照片问河面上反射了几盏路灯正确答案是七盏而如果只是粗看图片很容易数错。第二题一张墙上涂鸦的照片写着GUEST这个单词问哪个字母看起来是最近才重新涂刷的正确答案是字母S因为它的颜色更深、油漆更新但这需要仔细辨别每个字母的色泽和纹理。这两道题都要求AI具备精细的视觉辨别能力不是随便扫一眼就能答对的。---四、比让AI多想更重要的是让AI换种方式学在确定了用什么数据训练感知能力之后团队还研究了一个更深层的问题用什么训练方式效果最好最直观的思路是让AI记答案——给它看图告诉它正确答案让它反复学习图片和答案之间的对应关系。这种方式在AI领域叫做监督微调SFT是训练视觉语言模型最常见的方法之一也是早期大量工作依赖的技术路线。然而研究团队发现对于视觉感知训练来说这种方式效果反而不如另一种更主动的训练方式——基于可验证奖励的强化学习RLVR。用一个类比来理解这两种方式的区别监督微调就像死记硬背——老师把正确答案都给你了你只需要反复背诵而强化学习则像自己摸索——AI自己尝试各种回答对的就给予鼓励错的就给予惩罚AI在这个过程中逐渐学会什么样的视觉理解是准确的。为什么强化学习对感知训练更有效研究者解释了一个核心原因监督微调使用的是固定答案来训练但如果这些答案来自的标注质量不如模型本身的预训练水平反而会拉低模型的表现。更重要的是监督微调是被动接受的学习方式模型在训练时不一定真的在学习如何更准确地从图片中提取信息而可能只是在学习哪种答案格式是被期待的。强化学习则不同它让模型保持在自己真实的能力状态下不断尝试通过真实的对错反馈来调整内部的视觉处理机制得到的改善更加稳固。数据也印证了这一点在WeMath一个视觉数学推理基准测试上用强化学习训练感知的Qwen2.5-VL-7B模型比用监督微调的同款模型高出了8.1个百分点对于更强的Qwen3-VL-8B模型这一差距是1.6个百分点。---五、分开训练还是混在一起训练实验给出了清晰的答案除了用什么训练感知团队还系统地研究了按什么顺序训练这个问题。传统做法是合并训练把感知数据、文字推理数据、视觉推理数据统统混在一起打乱顺序一起训练。这种方式的好处是简单方便训练一次就搞定。研究团队设计了严格的对照实验把这种合并训练方式与他们的分阶段训练方式进行了全面比较。结果相当清晰在两个不同规模的模型Qwen2.5-VL-7B和Qwen3-VL-8B上分阶段训练在几乎所有测试项目上都优于合并训练。以Qwen3-VL-8B为例合并训练后模型在视觉数学推理方面的平均得分是49.6%而分阶段训练后这个数字提升到了51.1%。同时分阶段训练的模型在回答问题时产生的文字要短20.8%——平均每次回答445个词而合并训练的模型需要562个词。换句话说分阶段训练不仅让AI答得更准还让AI答得更简洁。这两件事同时发生并不是巧合。研究团队解释说这恰恰证明了核心观点当AI的视觉感知变得更准确它在推理过程中就不需要反复重新检查图片、反复质疑自己的视觉判断了。感知准确推理自然流畅简洁感知有误推理就会陷入冗长的自我怀疑和反复核查的循环。为了验证这个结论不只适用于某一个模型系列团队还在完全不同架构的模型上进行了测试包括InternVL3.5-8B和InternVL3-8B。结果同样支持分阶段训练InternVL3-8B在分阶段训练后整体提升了3.77%InternVL3.5-8B提升了0.95%。跨越不同架构的一致结论大大增强了这一发现的可信度。---六、顺序不能乱视觉感知必须先来研究团队进一步追问分阶段训练的三个阶段顺序重要吗能不能把感知训练放到最后为了回答这个问题他们测试了三种不同的训练顺序。第一种是他们推荐的顺序先训练视觉感知再训练文字推理最后训练视觉推理。第二种是把前两个阶段交换先文字推理再视觉感知最后视觉推理。第三种是完全颠倒先视觉推理再文字推理最后视觉感知。实验结果非常有说服力第一种和第二种顺序的效果相差不大两者都明显好于合并训练。这说明视觉感知和文字推理这两个基础能力的训练顺序相对灵活两者都可以排在视觉推理之前互换位置不影响大局。但第三种顺序——把视觉推理放在第一位、把感知训练放到最后——效果就差多了。对于Qwen2.5-VL-7B这种顺序下视觉数学平均得分从42%以上跌到了37.7%感知能力也跌到了74.2%几乎和没有训练一样。这个结果的解读是当AI一开始就在感知尚不准确的情况下学习复杂的视觉推理感知错误和推理过程会紧紧地缠绕在一起互相干扰形成难以解开的坏习惯。等到最后再去训练感知已经很难把之前养成的错误模式纠正过来了。视觉感知必须先打好基础才能让后续的推理训练真正发挥作用。---七、两种维度的学习课程叠加起来效果更好在教育学领域有一个古老而有效的原则由易到难。先教简单的内容等学生掌握了再教难的。这种方式叫做课程学习在AI训练领域也有对应的实践——把训练数据按照难度排序让AI先学简单的再学难的。研究团队在提出按能力分阶段训练的同时也思考了这两种训练策略之间的关系按能力分阶段是一种维度的课程安排按难度排序是另一种维度的课程安排。这两者能不能叠加使用获得更好的效果为了检验这个问题团队设计了四种配置并进行对比完全混合训练没有任何顺序、只按能力分阶段也就是前文的分阶段训练、只按难度排序数据全部混合但从简单到难排列、以及同时按能力分阶段又在每个阶段内按难度排序。难度的判断方式也很直观对每道题让AI尝试回答16次统计答对的概率。答对概率高的题是简单题答对概率低的是难题这样就得到了每道题的难度评分。结果显示只按能力分阶段的平均得分是60.53%只按难度排序的是60.36%两者都比完全混合训练58.56%好。而把两者结合起来得分进一步提升到62.99%比任何一种单独方法高出了2%以上。这个发现在概念上也很有意思按能力分阶段解决的是学什么和什么时候学什么类型的技能的问题按难度排序解决的是用什么难度的材料来学的问题。这两个问题是独立的互不干扰自然可以同时优化叠加效益。---八、最终成绩单在真实测试中的表现研究团队把经过分阶段训练的模型与当前公开的多个同类模型进行了全面比较测试涵盖了视觉数学推理和视觉感知两大类共八个具体的评测基准。在数学推理方面以MathVista一个综合视觉数学测试集为例分阶段训练的Qwen3-VL-8B达到了75.9%的准确率在WeMath一个更侧重数学推理深度的测试上达到56.1%。在视觉感知方面RealWorldQA测试对真实世界图片的理解得分为74.5%MMStar综合多项感知能力得分为73.1%。与同期公布的OneThinker-8B一个专注于推理能力的类似规模模型相比分阶段训练的模型在WeMath上高出1.5个百分点在RealWorldQA上高出3.0个百分点整体平均得分达到65.8%超过了所有同等规模的对比模型。在7B规模的对比中与GThinker、MMR1、OpenVLThinker等近期专注于推理能力的模型相比分阶段训练的Qwen2.5-VL-7B在视觉数学平均得分上达到42.3%同时保持了77.2%的视觉感知平均得分——也就是说推理提升了感知没有下降实现了真正意义上的全面提升。---研究团队最后还有一个有趣的观察值得一提他们用一个AI工具分析了所有模型错误回答中的感知错误数量。在Qwen3-VL-8B的基础版本中三个测试集共有857个样本被认定含有感知错误。经过合并训练后这个数字降到了805个经过分阶段训练后进一步降到了781个。方向一致效果逐步叠加。归根结底这项研究讲述的是一个先学会看才能学会想的故事。当AI能更准确地感知图片中的信息后续的推理就不需要耗费大量精力去质疑、修正、反复核查最初的视觉判断而是可以直接基于可靠的信息进行高效推理。这不仅让最终答案更准确也让整个推理过程更加简洁。对于从事AI应用开发的人来说这意味着在训练视觉推理AI时专门为感知能力设计训练数据和训练阶段可能比单纯增加推理训练量更有价值。对于关注AI发展的普通人来说这项研究提醒我们AI犯错的原因往往比我们想的更基础——不是它不够聪明而是它没看清楚。而解决这个问题的方式也出人意料地接近人类学习的逻辑先打好基础再谈提高。感兴趣的读者可以通过arXiv编号2605.20177获取这篇完整论文或访问项目主页 ucsc-vlaa.github.io/VLM-CapCurriculum/ 了解更多实验细节和训练数据。---QAQ1视觉感知训练和普通的视觉推理训练有什么区别A视觉感知训练专门针对AI看清图片的能力比如认清颜色、数量、位置关系等基础细节不需要复杂的逻辑推理。而视觉推理训练则是在看清图的基础上进行多步骤思考比如解几何题。这项研究的核心发现是感知能力必须单独强化不能寄希望于通过推理训练一并解决。Q2分阶段训练为什么能让AI回答问题时用的字更少A当AI的视觉感知更准确时它在推理过程中不需要反复重新查看图片来核实自己看到的信息是否正确。感知准了推理路径就直接了感知有问题AI就会不断质疑、反复确认产生大量多余的文字。分阶段训练让AI减少了20.8%的回答长度同时准确率反而更高。Q3强化学习比监督微调记答案的方式更适合训练视觉感知的原因是什么A监督微调相当于给AI一套固定答案让它背如果这些答案质量一般反而会拉低模型原有水平。而强化学习让AI自己尝试通过真实的对错反馈来调整视觉理解方式学到的是真正的感知能力而不是答案格式。实验显示在视觉数学测试上强化学习方式比监督微调高出1.6%到8.1%不等。