上周多模态大模型领域迎来了一次密集的「新老交替」。不仅 OpenAI 刷新了 GPT 系列阿里 Qwen 与月之暗面 Kimi 也纷纷上线了最新的模型。我们将这几款备受瞩目的模型纳入了最新的表格图片识别排行榜。结果大跌眼镜虽然旗舰模型依旧强势但在面对「复杂结构 水印干扰」这对「职场老冤家」时不少明星选手纷纷翻车。以下是最新排行榜*数据来源非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark*评测标准表格结构与内容须与原图完全一致任一不符即判错。下面我们重点拆解四款「流量型」选手的实测表现GPT-5.5 (OpenAI)准确率85%作为 OpenAI 阵营的中坚力量GPT-5.5 的表现本应更进一步但实测中它却是在几个意想不到的地方「丢了分」。而下面是丢了分的一些案例1.水印干扰导致数字识别错误图1左边是原图右边是模型输出结果标着红色框框是数字识别错误图2左边是原图右边是模型输出结果标着红色框框是数字识别错误2.多层级表头导致识别结构的错乱左边是原图右边是模型输出结果标着红色框框是表格结构识别错误主要短板水印干扰与结构「间歇性失灵」尽管它是全球最顶尖的模型之一但水印依然是它的阿基琉斯之踵——部分测试图中水印直接导致了后续内容识别的逻辑断裂。此外它在识别复杂表格标题时出现了明显的「偷懒」倾向标题内容部分数值被省略甚至文字直接缺失。更严重的则是数值错误在精密的表格还原中一个数字的错误往往意味着整张表的作废。小结GPT-5.5依然稳居第一梯队但「粗心大意」和「怕水印」的毛病让它在与 gemini-3.1-pro-preview 89% 的对比中略逊一筹。作为 OpenAI 阵营的中坚力量GPT-5.5 的表现本应更进一步但实测中它却在几个意想不到的地方「丢了分」。Qwen3.6-35B-A3B (阿里)准确率82%阿里通义千问系列一直以优秀的中文理解能力著称这款 35B 规格的最新模型在表格视觉任务中表现还不错但还是有一些丢分项下面是几张识别错误的案例1.水印干扰导致表格内容直接识别错误或者内容空白左边是原图右边是模型输出结果左边是原图右边是模型输出结果2.标题内容直接省略左边是原图右边是模型输出结果主要短板水印响应两极化面对水印叠加Qwen3.6-35B-A3B 要么出现内容识别错误要么干脆“消极怠工”识别不出内容直接输出空白。标题与结构失准表格结构的还原准确度有待加强特别容易在标题部分“掉链子”导致文字内容被省略。小结对于追求极致还原的专业场景Qwen3.6-35B-A3B 目前还存在明显的「幻觉」和结构化障碍其视觉理解的底层鲁棒性仍需打磨。Kimi-K2.6 (月之暗面)准确率81%以长文本处理闻名的 Kimi其视觉能力一直备受用户期待。然而Kimi-K2.6在本次表格专项测试中却有些「感知迟钝」。而下面是几张识别错误的案例1.水印干扰导致识别空白或者是数字内容识别错误左边是原图右边是模型输出结果标着红色框框是直接识别生成空白左边是原图右边是模型输出结果标着红色框框是数字识别错误的内容2.多层级表头结构识别错误左边是原图右边是模型输出结果标着红色框框是表格结构生成错误主要短板水印直接「致盲」Kimi-K2.6的表现让我们感到意外。在带有水印的测试图面前它出现了极高频率的「致盲」现象内容识别不出直接返回空白。即便在无水印干扰下其表格结构的还原也显得不够细腻标题数值省略、文字漏掉、表格大纲识别错误。81% 的准确率在此次参评的 27 款模型中仅排在后半段。小结表格识别似乎是 Kimi-K2.6的短板。如果你的工作流中涉及大量带有公司水印的报表识别目前的 Kimi-K2.6 可能还没准备好。mimo-v2.5 (小米)准确率81%在本次排行榜中小米阵营的表现可谓“冰火两重天”。虽然同家族的 MiMo-V2-Omni 以 89% 的高分高居第二但作为本次重点实测对象之一的 mimo-v2.5却以 81% 的成绩滑落至第19名。在面对高难度的“压力测试”时mimo-v2.5 暴露出了一些经不起推敲的细节短板。以下是几个典型的翻车案例1.水印干扰导致数字识别错误左边是原图右边是模型输出结果标着红色框框是表格数字识别错误2.多层级表头导致识别结构的错乱左边是原图右边是模型输出结果标着红色框框是表格结构识别错误左边是原图右边是模型输出结果标着红色框框是表格结构识别错误3.表格内容文字识别错误左边是原图右边是模型输出结果标着红色框框是表格内容文字识别错误主要短板抗噪能力不足与结构逻辑崩溃与排在榜首的旗舰模型相比mimo-v2.5 在局部细节上显得不够稳定。首先是“抗噪性”盲区覆盖水印区域的文字极易受到干扰导致直接的识别错误其次在面对多层级嵌套的复杂表格时会出现结构层面的错位与错乱最后抛开结构干扰不谈它在最基础的单元格内容提取上依然会犯下文字识别错误的低级失误。小结尽管 MiMo 家族有霸榜的实力但 mimo-v2.5 在水印抗干扰以及基础内容的无损还原上显然还需要进一步对齐与优化。此次评测告诉我们什么水印成了大模型的「视力杀手」无论是 GPT-5.5 还是 Kimi-K2.6、Qwen3.6-35B-A3B、mimo-v2.5面对覆盖在文字上方的透明水印其底层的 OCR 与结构化推理能力都会受到剧烈干扰。这说明现有的多模态对齐训练中抗干扰噪声的权重依然不足。标题内容是“重灾区”很多模型过于关注表格主体单元格却忽略了标题中的关键上下文。数值被删减、文字被省略是目前普遍存在的“偷懒”行为。「结构精细度」正在拉开差距内容文字识别大家都不差差的是对多层级、嵌套、合并单元格的逻辑理解。排名靠前的MiMo-V2-Omni (89%) 和 gemini-3.1-pro-preview (89%) 明显在视觉拓扑关系的建模上做得更优秀。厂商跑分 ≠ 真实生产力Qwen3.6-35B-A3B 和 kimi-k2.6 在文本基准上分数极高但在表格还原这种「硬核」视觉任务中真实差距一测便知。