AI看懂“弦外之音“:中科院软件所等机构联合攻克视频隐喻理解难题

张

张建站

2026/5/30 1:51:02

10分钟阅读

这项由中国科学院软件研究所中文信息处理实验室、快手科技、清华大学自动化系等机构联合开展的研究以预印本形式发表于2026年5月论文编号为arXiv:2605.25461。当你刷到一段视频画面里几头穿着燕尾服的猪围坐豪华宴席大快朵颐镜头切到桌下几只猫在抢食残渣——你很可能一秒钟就明白了这是在讽刺上层社会挥霍无度而底层民众艰难求存。这种看图说话的能力对人类来说几乎是本能但对如今最顶尖的人工智能而言却是一道真正的难关。研究团队注意到现有的多模态大语言模型简称MLLMs可以理解为能同时处理图像和语言的AI在识别视频里的物体、描述画面发生了什么这些基础任务上表现不错但一旦涉及这个画面背后想表达什么AI就开始犯难了。为了系统地研究和解决这个问题研究团队做了三件事建立了一套专门用来测试AI隐喻理解能力的标准题库MetaphorVU-Bench用这套题库摸清了现有AI的真实水平和短板所在最后提出了一种叫做MetaphorBoost的方法来帮助AI补足这块短板。---一、为什么看懂弦外之音这么难回到那个燕尾服猪的例子。当我们看到这个画面时大脑会自动完成一系列高难度操作首先认出画面里有猪、有燕尾服、有宴席、有桌下的猫接着把穿燕尾服的猪这个奇怪组合和权贵阶层联系起来把桌下抢残渣的猫和底层民众联系起来最后才能读出画面背后的社会批判。认知科学把这个过程叫做跨域映射——把眼前看见的东西视觉域映射到一个完全不同的抽象概念世界意义域。对人类来说这是日积月累的文化熏陶和生活经验帮我们建立起来的直觉。但对AI来说它在训练时学到的更多是猪就是猪、宴席就是宴席这样的字面关系很少被训练去做这种跨越具象与抽象的联想跳跃。更麻烦的是隐喻视频无处不在。社交媒体上的短视频、广告、公益宣传片……大量内容都不是在直白叙事而是用视觉语言暗示更深层的意思。如果AI理解不了这些它在很多真实应用场景里就会显得智商不够用——比如内容理解、情绪分析、舆情研判等等。---二、给AI出一套隐喻理解考卷研究团队首先意识到要衡量AI在这方面的能力必须先有一套科学、系统的考题。于是他们花了大量精力从零开始构建MetaphorVU-Bench这套评测基准。这套题库的源头是快手短视频平台上的海量真实视频。研究团队从数十亿条视频出发设计了一套四阶段筛选流程最终精选出860个真正含有隐喻逻辑的视频。第一步他们先按评论数量过滤只保留评论超过150条的视频筛出约7万条因为评论多往往意味着这个视频引发了观众的深层思考或解读。第二步用GPT-5分析视频简介、语音识别文字和评论判断是否存在隐喻逻辑缩减到1.6万条。第三步用Gemini-3-Pro这样的多模态AI直接看视频核实前一步的分析是否符合实际画面进一步压缩到4000条。最后由人工团队做最终审核确认每条视频确实含有清晰的隐喻意图并标注隐喻类型最终留下860条视频。为了让评测有理有据研究团队还专门构建了一套视频隐喻分类体系把隐喻手法分成了八种类型。这八种类型并非随意划分而是扎根于电影学、符号学、表演理论等多个学科的理论基础。第一类叫肢体语言靠角色夸张或具有象征意义的动作来传递含义比如一个人越来越沮丧的走路姿态。第二类叫氛围语言通过画面色调、光线、构图的刻意变化营造情绪比如画面逐渐变暗来暗示心境低落。第三类叫文化符号借助特定文化中约定俗成的象征物比如放飞孔明灯代表祈愿、升学前途。第四类叫自然符号用动植物等自然元素的行为来映射人类情感比如一只公鸡守在死去母鸡旁边不肯离去暗喻忠贞的爱情。第五类叫因果蒙太奇通过剪辑拼接暗示因果关系让观众自己推断出逻辑链条比如把戴上婚戒的镜头和做繁琐家务的镜头接在一起暗示对婚姻的顾虑。第六类叫类比蒙太奇把两组相似但不同的画面并列引导观众发现它们之间的类比关系比如把成年人重玩童年游戏和童年动画并列表达对童年的怀念。第七类叫超现实叙事用动画或AI生成的虚构角色和情节来打破物理规律表达现实难以直述的意思就像开头那段穿燕尾服的猪的例子。第八类叫表演性叙事由真人演员扮演夸张的剧情通过故事转折揭示讽刺或批判比如一个强行要求年轻女孩让座的老人最后发现对方是残疾人讽刺道德绑架现象。在人工标注环节研究团队要求标注者参考视频简介和观众评论统一按照哪些视觉元素传递了哪些隐含含义的格式撰写解读。每条视频都经过三位标注者的交叉验证确保答案的准确性和一致性。为了排除字幕和语音内容对标注的干扰团队还提前用工具对所有视频进行了静音和字幕去除处理让整个评测完全依赖视觉信息。最终860条视频的人工标注解读平均每条约114个词覆盖了教育压力、社会批评、情感关系、人生感悟等大量日常生活话题。---三、AI现在的真实成绩单拿到了这套考题研究团队邀请了11款主流AI模型参加测试包括GPT-5、GPT-4o、Gemini-3-Pro、Gemini-2.5-Pro、Qwen3-VL系列、Doubao-1.5-Vision-Pro等闭源产品以及Qwen2.5-VL-7B、LLaVA-onevision等开源模型。同时还测试了一批专门增强推理能力的方法包括VideoRFT、Vision-R1、ReAd-R、LTR、ViTCoT以及思维链提示工程和少样本示例两种经典方法。为了有参照物研究团队还从题库中随机抽取了100条视频让真人来做把人类的得分作为上限标准。评分方式是用DeepSeek-V3这个大语言模型充当阅卷老师对照人工标注的标准答案给AI的输出评0到10分折算为百分制展示。研究还特地验证了这个AI阅卷方式的可靠性随机抽100条让人类评分和AI评分比较两者的皮尔逊相关系数达到0.85统计显著性极高证明AI阅卷结果是可信的。成绩单出来后情况比较明显。真人的平均分是83.4分。表现最好的AI是Gemini-3-Pro平均63.8分GPT-5平均63.7分两者相差不多。其余闭源模型基本在50到62分之间。开源的小模型差距更大Qwen2.5-VL-7B只有33.8分LLaVA-onevision也只有38.1分即便是参数量大得多的Qwen3-VL-235B平均也只有58.6分。最好的AI和人类之间差了将近20分而且这还是在给AI提供了视频标题这个额外信息的前提下。换句话说现有最顶尖的AI在理解视频隐喻方面相当于一个只能读懂字面意思、缺乏文化感知力的外行而不是一个能读懂弦外之音的内行。那些专门增强推理能力的方法表现如何结论相当令人意外。LTR和ViTCoT这两种专门设计来增强物体识别和事件描述能力的推理方法反而让基础模型的成绩下降了。思维链提示和少样本示例能带来一些提升但幅度很有限平均提升也就两三分。通过大量额外训练数据进行强化学习的VideoRFT和Vision-R1相比基础模型的进步也微乎其微。这意味着过去那些专注于看清楚描述准确的AI增强手段在理解含义这件事上几乎无能为力。---四、AI到底在哪里卡壳为了搞清楚AI失分的根本原因研究团队手动翻查了大量AI的做题过程也就是AI在给出最终答案前的内部推理记录发现了四种典型的失分模式。第一种是认错了东西——AI识别画面里的视觉元素时出错把猪认成了别的或者没认出来是燕尾服。第二种是漏掉了联系——AI认出了猪和燕尾服但完全没有把这个组合和权贵这类抽象概念联系起来直接跳过了。第三种是联系太浅——AI能做出一点点联系但只停留在表面比如说猪穿着燕尾服显得很奇怪也许表示这只猪想装成贵族而没有深入到讽刺真实社会中的权贵群体这个层次。第四种是联系方向错了——AI确实做出了跨域映射但映射到了错误的概念上导致解读偏差。研究团队统计了这四种错误在两个代表性模型Gemini-3-Pro和Qwen3-VL-8B-Thinking中的占比结论非常明确认错东西只占大约10%到14%而各种形式的跨域映射失败漏掉、太浅、方向错加起来占了80%以上。这个发现非常关键因为它告诉我们AI的问题不是眼神不好而是联想能力不够。过去我们训练AI的时候大量精力花在提升识别准确率、描述能力上但对这种从具体到抽象的意义跳跃训练得太少。研究团队还发现八种隐喻类型中AI在前四类肢体语言、氛围语言、文化符号、自然符号上表现相对较好在后四类因果蒙太奇、类比蒙太奇、超现实叙事、表演性叙事上表现明显更差。原因不难理解后四类的视频往往包含更多层次的隐喻元素需要AI做更多、更复杂的跨域映射而这恰恰是AI的弱点所在。---五、给AI装一张隐喻地图既然问题出在跨域映射上研究团队的解题思路就变得清晰了与其让AI自己无中生有地猜测象征意义不如给它准备一张现成的隐喻地图告诉它哪些具体的东西通常象征哪些抽象的概念。这张隐喻地图就是他们构建的隐喻知识图谱。用图书馆来打个比方这个知识图谱就像一本超级厚的《隐喻词典》里面记录了大量A象征B的配对关系而且每个词条之间还有交叉索引可以顺藤摸瓜地查几层关联。具体来说研究团队收集了四个公开的文本隐喻数据集总共包含约3.7万条带有隐喻含义的文本其中一部分原本是中文团队用GPT-5翻译成了英文以保证通用性。然后用DeepSeek-V3从每段文本里提取源概念→目标概念的隐喻配对比如从他用锁链束缚了自己的思想这句话里提取出锁链→心理束缚这个配对。最终积累了54,687个概念节点和200,268条边即概念之间的关联关系构成了整个隐喻知识图谱。有了这张地图研究团队设计了MetaphorBoost这套方法来在AI答题时使用它。整个流程分三步。第一步让AI先仔细看视频把画面里出现的所有有意义的视觉元素列出来比如猪、燕尾服、宴席、桌下的猫、食物残渣。第二步拿着这些关键词去查隐喻知识图谱沿着关联关系最多走两跳即两层关联找出和这些关键词连接最紧密的抽象概念默认返回前10个最相关的结果比如权贵→腐败、挥霍→社会财富、弱者→被剥削等。第三步把这些检索到的隐喻概念作为参考提示让AI结合实际视频内容生成最终的隐喻解读并在提示里特别说明这些参考只是灵感来源不能完全依赖。研究团队还做了一个巧妙的设计检索时优先返回那些同时与多个关键词都有连接的概念节点而不是随机返回。这背后的逻辑是如果一个抽象概念既和猪有关又和燕尾服有关还和宴席有关那它很可能就是这个视频真正想表达的核心意义。这种多线索汇聚的方式能有效降低误导性参考的干扰。---六、验证效果确实管用而且原因清晰MetaphorBoost在三个不同规模的基础模型上都进行了测试结果一致有提升。基于Qwen2.5-VL-7B这个小模型平均分从33.8提升到37.9提升了4.1分表现超过了所有专门做了额外训练的强化方法。基于Qwen3-VL-8B-Thinking从52.0提升到55.9提升3.9分超过了所有推理时扩展方法。基于Gemini-3-Pro这个最强基础模型从63.8提升到66.1提升2.3分达到了所有参与测试方法中的最高分。为了证明提升是真实有效的而不是偶然的数据波动研究团队还专门分析了AI在引入MetaphorBoost前后漏掉联系、联系太浅、联系方向错这三类问题的出现次数变化。结果显示三类问题在使用MetaphorBoost之后都明显减少。比如在Gemini-3-Pro上漏掉联系的次数从一个较高数值降低了联系太浅和方向错误的情况也同步减少。这直接验证了MetaphorBoost确实在帮助AI完成那个关键的跨域映射动作而不只是在做无谓的优化。研究团队还做了一系列消融实验来验证设计决策的合理性。首先如果不用外部知识图谱改成让AI自己问自己来补充联想效果会下降说明外部知识的补充是真正有效的AI自身的知识库在这方面确实有缺口。其次如果不用图谱结构改成直接从原始文本数据集里检索效果也会下降说明图谱的结构化关系比散乱的文本更有利于准确召回隐喻概念。再者如果把专门构建的隐喻知识图谱换成通用常识知识图谱ConceptNet效果同样下降说明隐喻理解需要的不是普通常识而是专门的隐喻域知识。超参数实验也验证了默认设置最多走两跳、返回10个结果是相对最优的配置走一跳或者只返回5个结果都会让效果有所下滑说明适度的深度和数量能在覆盖面和噪声之间取得较好的平衡。---归根结底这项研究做了一件重要的事它把AI能不能理解视频的言外之意这个模糊的问题变成了一个可以精确测量、系统分析、针对性改进的工程问题。从建立八类隐喻的分类体系到筛选860条真实视频并精细标注再到发现跨域映射失败是AI的核心瓶颈最后用隐喻知识图谱作为认知脚手架给AI补足短板——整个研究形成了一条完整的认知链条。目前最好的AI与人类之间仍有将近20分的差距而且MetaphorBoost虽然有效提升幅度也相对有限说明这个问题还有很大的探索空间。视频中的隐喻往往高度依赖特定的文化背景知识图谱目前主要覆盖通用隐喻对文化特异性的隐喻理解还相对薄弱。未来如何让AI真正入乡随俗地理解不同文化语境下的隐喻可能是这个方向上下一个值得深挖的问题。对那些关注AI应用的读者来说这项研究提示了一个现实当我们把AI用在内容审核、情感分析、视频理解等领域时需要清醒地意识到当前的AI对话外音的感知能力还相当有限依赖它来解读含有大量隐喻的内容时需要保持足够的谨慎。有兴趣深入了解全部细节的读者可以通过arXiv编号2605.25461查阅完整论文。---QAQ1MetaphorVU-Bench这套评测基准是怎么筛选出来的凭什么说它选的视频质量有保障AMetaphorVU-Bench经过四轮筛选。先按评论数量过滤留下7万条再用GPT-5分析文字内容压缩到1.6万条然后用Gemini-3-Pro直接看视频核实到4000条最后由三名人工标注者逐条审核任何一人认为视频隐喻不明确就直接剔除最终留下860条。每条视频的解读也经过一人写、两人审、三人共同修改直到满意的流程并提前做了视频静音和字幕去除确保评测完全依赖视觉内容。Q2MetaphorBoost为什么要用图谱结构直接搜索文本数据集不行吗A研究团队专门做了对比实验。把隐喻知识图谱换成直接检索原始文本数据集整体平均分会下降约1.6分。原因在于图谱的结构化关系能同时利用多个关键词之间的交叉连接来锁定最相关的抽象概念而散乱的文本检索更容易带回噪声信息或不相关的隐喻配对。图谱天然支持多跳查询可以发现A→B→C这样的间接隐喻关联这是平铺文本做不到的。Q3现有AI在哪几种隐喻类型上表现最差原因是什么AAI在因果蒙太奇、类比蒙太奇、超现实叙事、表演性叙事这四类上表现明显更差最差的类型得分有时只有30多分而最好的类型能达到60到70分以上。原因是这四类视频通常包含更多层次的隐喻视觉元素需要AI同时对多个元素做跨域映射并整合成一个连贯的含义而前四类相对更依赖单一的象征符号难度较低。简单说越复杂的暗语系统AI越读不懂。