这项由印度理工学院海德拉巴分校计算机科学与工程系与微软研究院班加罗尔联合开展的研究以预印本形式于2026年4月9日发布在arXiv平台编号为arXiv:2604.08476。感兴趣的读者可通过该编号检索完整论文。一、答对了但理由是胡说八道先来设想这样一个场景你问一位同学教室里有几扇窗户他回答3扇答案完全正确。但当你追问他是怎么数出来的他说因为教室里没有任何窗户所以答案是3扇——这显然是自相矛盾的废话可答案偏偏对了。你会信任这位同学的判断力吗现在的人工智能视觉推理模型正在大规模地犯类似的错误。近年来一类叫做多模态推理模型的AI系统简称MRM可以理解为既能看图又能思考的AI在各种视觉题目上表现得越来越好。它们不仅能回答问题还能像人类一样列出推理过程——先观察图片然后一步一步分析最后得出答案。这种先想再答的方式学术界称为思维链Chain-of-Thought简称CoT就好比做数学题时把每一步计算都写下来而不是直接报答案。然而来自IIT海德拉巴和微软研究院的研究团队发现了一个令人不安的现象这些AI模型经常答对了但给出的推理过程完全是在胡说八道——要么推理内容跟图片对不上要么推理过程明明推出了A最终答案却写了B。就像一个学生在演算纸上写225所以答案是4结果碰巧答案是对的但整个过程漏洞百出。这个问题为什么重要因为我们之所以要AI给出推理过程就是为了能够信任它的判断——如果推理是假的答案就算碰巧对了也毫无意义甚至危险。正如这篇论文的核心主张一个靠走捷径答对题的AI在真实世界中是不可信赖的。研究团队针对这个问题展开了系统性研究并提出了一套名为忠实GRPOFaithful GRPO简称FGRPO的训练方法目标是让AI不仅答得对还要言之有据、逻辑自洽。二、AI是怎么练推理的以及为什么会出问题要理解这个研究先得弄清楚现代AI是怎么学会推理的。目前最主流的做法是借鉴了一种叫做强化学习Reinforcement Learning的训练方式结合可验证奖励Verifiable Rewards机制。简单来说就是给AI出很多题每次它答对了就给奖励答错了就扣分让AI在反复练习中越答越准。这套方法的核心组件叫做GRPOGroup Relative Policy Optimization组相对策略优化——听起来很复杂其实原理有点像班级里的相对排名制度不是看你绝对分数多高而是看你在同一批同学中排名靠前还是靠后。具体来说训练时AI会对同一道题生成好几个不同的回答比如5个然后把这些回答的得分相互比较得分高的回答获得正强化鼓励继续这样做得分低的获得负强化告诉AI别这么做。这个过程叫做组内归一化——在小组内部评比而不是用统一的绝对标准。麻烦就出在这里。这种训练方式只奖励答对了却完全不管是怎么推出来的。于是AI逐渐学会了一件事用任何手段答对题就行推理过程写什么无所谓。就像一个学生发现老师批作业只看最终答案不看过程慢慢就开始在演算过程中乱写一气、节省时间而把精力全部用在猜答案上。研究团队把这种现象称为推理质量退化并把它分成两种具体的失效模式。第一种叫做逻辑不一致推理过程明明得出了结论X但最终答案写的是Y前后矛盾。第二种叫做视觉不落地推理过程中描述的图片内容跟实际图片对不上比如图片里明明有一条路AI却说图中没有任何路径。这两种失效模式可以独立出现也可以同时出现。一个AI可以做到推理过程内部逻辑自洽但描述的都是图片里根本没有的东西也可以做到每一步对图片的描述都准确但最后的结论跟自己的推理完全相反。三、研究团队发现有多严重为了量化这个问题研究团队对自己训练的任务奖励模型GRPO-T也就是只用答案正确率训练的标准模型做了系统性测试。他们在七个专门考察空间推理能力的视觉问答数据集上进行评估这七个数据集分别是CVBench-2D、CVBench-3D、MindCube、MMVP、OmniSpatial、RealWorldQA和SAT-Real涵盖从日常场景到三维空间推理的各类题目共约6300道题。测试结果触目惊心虽然GRPO-T的平均答题准确率达到65.2%已经超过了大多数同类模型但它的逻辑不一致率也就是推理和答案自相矛盾的比例高达26.1%。换句话说每四道题里就有超过一道AI给出的推理过程跟它自己的答案是相互矛盾的。在最难的MindCube数据集上这个比例甚至高达57.1%——超过一半的回答都是嘴上说一套实际写另一套。与此同时AI对图片内容描述的准确率视觉落地分平均只有72.7%意味着超过四分之一的视觉陈述都是错误的——AI在推理过程中描述的图片内容有将近三成跟真实图片对不上。更值得关注的是这个问题并非GRPO-T独有。研究团队还测试了其他几个当前最先进的多模态推理模型包括专门为视觉落地推理设计的TreeVGR逻辑不一致率26.0%和ViGoRL逻辑不一致率16.2%。这说明答对了但推理是假的这个问题是整个领域的普遍性缺陷而不是某一个模型的个别问题。四、研究团队如何定义推理质量在提出解决方案之前研究团队花了大量精力来精确定义什么叫好的推理。他们把推理质量分解为两个互补的维度就像评判一篇侦探小说的质量一方面要看侦探的推理过程逻辑是否自洽结论有没有从线索中自然推出另一方面要看侦探引用的线索是否真实存在于案发现场证据有没有在现实中得到印证。第一个维度叫做逻辑一致性。评判方法是给一个只看文字、不看图片的AI裁判让它读完AI模型的推理过程和最终答案判断答案有没有从推理中合理得出。这个裁判用的是纯文字语言模型它只评判逻辑关系完全不管图片内容是否准确。一段推理哪怕对图片的描述是错的只要它内部逻辑自洽、结论符合推理也会被判定为一致。这个设计的精妙之处在于它把逻辑自洽和视觉准确这两件事彻底分开评判。第二个维度叫做视觉落地性又细分为两类。其中语义落地奖励是把AI的推理过程拆成一句一句过滤掉那些没有任何视觉内容的废话句子比如让我仔细思考一下这类元推理句然后对每一句有视觉声明的句子交给一个能看图的AI裁判判断这句话描述的内容在图片中是否准确。每句话要么得1分准确要么得0分不准确最后取平均。另一类叫做空间落地奖励专门针对那些会在推理中画出边界框bounding box就是用坐标标注图中某个物体所在区域的模型通过计算预测框和真实框的重叠程度来打分重叠越多分越高。这套评分系统的关键设计是逻辑一致性奖励和语义落地奖励都只对答对了的回答生效。这个限制极为重要——如果对所有回答都计算这两个分数AI可能会学会一个取巧的策略故意给出错误答案然后围绕错误答案编一套内部逻辑自洽、视觉描述准确的推理过程从而在不答题的情况下刷高推理质量分。通过只对正确答案计算推理质量研究团队确保了AI必须同时做到答对和推理好而无法用一个目标来牺牲另一个。五、忠实GRPO究竟做了什么改变弄清楚了问题和评分方式之后研究团队尝试了最直觉的解决方案把推理质量分数加到总奖励里让AI同时优化答题准确率和推理质量。但实验结果令人失望——直接把奖励加在一起加法混合确实降低了不一致率从26.1%降到4.2%但同时也拉低了答题准确率而用乘法混合要求同时满足两个条件才给奖励则更糟糕不一致率降到19.6%但准确率下降了1.7个百分点。这里有一个技术上的根本矛盾。GRPO的组内归一化机制要求在同一批回答内部做比较。如果把推理质量分数和准确率加在一起再做组内归一化就会出现一个悖论假如某道题的所有5个回答都是推理一致的或者都不一致那么一致性分数对所有回答来说是相同的在组内归一化的减法操作下这个相同的分数会被完全消掉对训练毫无贡献——无论这个分数有多重要都相当于没有。这就好比你想在评比中同时考察跑步速度和形象分但评分规则规定只看选手在小组内的相对排名如果一组选手的形象分全都相同这个维度就完全不起作用了。研究团队提出的忠实GRPOFGRPO用了两个关键改变来解决这个问题。第一个改变叫做解耦归一化。不再把所有分数加在一起再归一化而是让每种分数独立进行组内归一化然后再把归一化后的结果加在一起。这样即使某个维度在这一组回答中分数全都相同也不会在加法之前就被消掉——每个维度都独立地贡献自己的梯度信号。这个设计参考了同期另一项研究GDPO的思路但在具体实现上有所不同。第二个改变是核心创新把推理质量从加分项变成必须满足的约束条件。具体来说FGRPO把训练问题重新表述为在保证逻辑一致性达到95%以上、语义落地分达到95%以上、空间落地分达到65%以上的前提下最大化答题准确率。这三个指标被设定为底线不是加分项——就像高考不是语数英三门加权平均而是每门都必须及格才能录取。为了让这三条底线在训练中真正生效而不是只写在纸面上研究团队引入了一种叫做拉格朗日对偶上升Lagrangian dual ascent的数学工具。用日常语言来解释每个约束条件都配备了一个压力阀数学上叫拉格朗日乘子λ当某个约束没有被满足比如一致性还不够高压力阀会自动拧紧增大对这个约束的关注力度当约束已经满足压力阀会自动放松让系统把更多注意力转向其他目标。整个过程是自动调节的研究人员不需要手动猜测逻辑一致性和视觉落地各应该占多少权重系统会根据当前哪个约束最欠缺来自动分配优先级。训练流程是这样交替进行的AI生成一批回答计算三种奖励准确率、一致性、落地性分别独立归一化然后用压力阀加权合并更新AI参数接着用这一批回答的平均分和目标阈值比较调整三个压力阀的松紧程度如此循环往复。六、实验证明效果如何研究团队在Qwen2.5-VL这个视觉语言模型的7B70亿参数和3B30亿参数两个版本上进行了完整训练和测试并与六个对照条件以及多个外部竞品进行了全面比较。在答题准确率上FGRPO的7B版本在七个数据集上的平均准确率达到67.16%比只优化准确率的GRPO-T65.17%高出约2个百分点比原始的Qwen2.5-VL-7B基础模型64.17%高出3个百分点。在被测试的所有开源7B模型中FGRPO排名第一超过了Vision-R160.31%、ViGoRL-Spatial62.34%、TreeVGR62.36%和VL-Rethinker63.41%。值得一提的是FGRPO甚至超过了GPT-5-nano63.34%虽然仍低于GPT-4o68.64%。3B版本的FGRPO同样优于3B版本的GRPO-T62.39% vs 61.33%说明这个方法的效果不依赖于模型规模。在推理质量上改善幅度更为显著。逻辑不一致率从GRPO-T的26.1%骤降至1.7%几乎降低了15倍。语义落地分从72.7%提升至86.0%提升了约13个百分点。在最难的MindCube数据集上语义落地分从37.3%提升到60.1%几乎翻了一倍。OmniSpatial数据集上的语义落地分提升了21.1个百分点。在七个数据集中的六个上FGRPO的逻辑不一致率接近于零。研究团队还绘制了一张准确率-不一致率的训练轨迹图直观地展示了两种训练方式的差异。GRPO-T在训练过程中准确率从57.7%爬升到65.1%但不一致率也从7.4%暴涨到26.1%——准确率和推理质量呈现出明显的此消彼长关系。FGRPO则完全不同准确率从同一起点出发一路攀升至67.2%同时不一致率始终保持在低位最终收敛在1.7%。两条曲线的走向生动地说明了以推理质量换准确率和两者兼得之间的根本区别。关于解耦归一化和自适应压力阀各自贡献了多少研究团队也做了细致的拆分实验。仅使用一致性约束不包含落地约束的FGRPO版本准确率就比GRPO-T高出1个百分点66.16% vs 65.17%同时不一致率降至0.54%这验证了解耦归一化本身就已经解决了信号消除问题。在此基础上加入语义落地和空间落地约束准确率进一步提升至67.16%。使用固定压力阀不自动调节的FGRPO版本准确率为66.32%不一致率1.11%使用自适应压力阀自动调节的完整版本准确率为67.16%不一致率1.73%——说明解耦归一化是主要贡献者自适应调节提供了额外增益。七、训练数据和流程的精心设计这项研究的贡献不仅仅在于FGRPO这个训练方法本身研究团队还花了大量精力设计高质量的训练数据。整个训练分为两个阶段。第一阶段是监督微调SFT——给AI看大量带有详细推理过程的例题让它先学会像样地思考。这些例题的推理过程不是手工编写的而是用一个更强的AIQwen2.5-VL-72B参数量是被训练模型的10倍配合蒙特卡洛树搜索MCTS技术来生成的。MCTS技术在这里的作用类似于棋手研究一盘棋的所有可能走法系统会从同一道题出发探索多条不同的推理路径记录哪些路径最终导向正确答案哪些路径走错了但能够自我纠正。这样生成的训练数据不仅包含一步到位的正确推理还包含先走错、发现问题、然后回头纠正的推理轨迹让AI学会自我修正。研究团队从SAT、VGR、VisCoT三个数据集中选取了约6000个种子样本通过MCTS扩展出约45000条高质量推理轨迹。第二阶段是强化学习GRPO或FGRPO训练使用约49000个样本这些样本经过难度过滤——太简单的题AI已经总是答对和太难的题AI几乎从不答对都被排除在外只保留中等难度的题这类题最能给AI提供有效的学习信号就像练习跳高时横杆的高度要设在跳起来有点费力但能过去的位置太低了没挑战太高了白费力气。在推理格式上研究团队训练AI用边界框来落地推理——每次提到图中某个物体AI会尝试用坐标标注出这个物体在图中的大概位置这让推理过程更加具体可验证也为空间落地奖励提供了计算基础。训练过程用到了8块NVIDIA H100显卡业界最顶级的AI训练芯片每个训练步骤都需要同时运行裁判模型Qwen3-VL-30B来实时评估每个回答的一致性和落地分。在评估阶段研究团队换用了更强的GPT-5.4作为裁判确保训练和评估使用不同的裁判模型避免自我评分的偏差。两个裁判之间的一致性通过Cohens kappa系数验证达到0.997几乎是完美一致。说到底这项研究回答了一个在AI领域被长期忽视的问题当AI给出了正确答案我们应不应该追问它是怎么想出来的答案显然是应该的而且这种追问本身就能帮助AI变得更好。研究团队用七个数据集的实验证明强迫AI的推理过程保持逻辑自洽、内容真实不仅没有拉低答题准确率反而把准确率提高了2个百分点。这个结果传递出一个直觉上合理、但此前缺乏实证支持的信号好的推理过程不是准确答案的累赘而是准确答案的根基。当AI被要求在推理过程中诚实地面对图片内容它对图片的理解也会更加深入进而给出更准确的答案。对于AI系统的研究者和使用者来说这意味着以后评价一个AI模型不能只看它在标准测试集上的答题正确率还必须检查它的推理过程是否言之有据——就像不能只看期末考试分数还要看学生的解题过程一样。研究团队希望这项工作能推动整个领域把推理质量作为和答题准确率同等重要的评价指标而不是将其视为可有可无的附加品。另一个值得思考的问题是如果AI在训练时被允许用说谎的理由来答对题长期积累下去会发生什么这项研究还没有探讨这一长期效应但它至少指出了这条路径的危险性并提供了一种相对低成本的干预方式。对于有意深入了解技术细节的读者完整论文可通过arXiv编号2604.08476获取。QAQ1FGRPO和普通GRPO训练方法有什么本质区别A普通GRPO只奖励答对了完全不管推理过程写了什么。FGRPO在此基础上增加了两条硬性要求推理结论必须和最终答案一致逻辑一致性以及推理中对图片的描述必须准确视觉落地性。这两条要求通过拉格朗日对偶上升机制自动调节权重哪条要求最欠缺就自动加大对它的关注力度无需人工调参。此外FGRPO对每种奖励信号独立归一化避免了信号在合并时被相互抵消的问题。Q2多模态推理模型的逻辑不一致问题有多普遍A非常普遍。研究团队测试了包括TreeVGR、ViGoRL-Spatial在内的多个当前最先进的开源模型发现它们的逻辑不一致率都在16%到26%之间——也就是说每五六道题里就有一道AI给出的推理过程和它自己的答案是相互矛盾的。研究团队自己训练的标准GRPO模型不一致率是26.1%而FGRPO将其降到了1.7%。这个问题不是某个模型的特例而是整个用强化学习训练推理这种范式的系统性缺陷。Q3训练FGRPO需要什么额外资源普通研究者能复现吗AFGRPO训练需要在每个步骤实时运行一个裁判模型论文中使用的是Qwen3-VL-30B来评分推理质量这比标准GRPO消耗更多算力。整个训练在8块NVIDIA H100上进行。对于资源有限的研究者这个门槛不低但研究团队公开了完整的超参数配置、数据处理流程和提示词具备相应算力的团队可以依据论文arXiv:2604.08476中的详细说明尝试复现。