1. 项目概述视频大语言模型的“幻觉”难题如果你最近尝试过让某个视频大语言模型Vid-LLM描述一段视频可能会遇到一些令人啼笑皆非的情况。比如你给它看一段“一个人走进厨房打开冰箱拿出牛奶”的短视频它可能会言之凿凿地告诉你“这个人把牛奶倒进了杯子里”——尽管视频里压根没有这个动作。又或者在一段长视频中它会把前半段出现的A先生和后半段出现的B女士混淆生成“A先生穿上了红色的裙子”这样匪夷所思的描述。这种现象就是我们今天要深入探讨的“幻觉”。在人工智能领域多模态大语言模型通过整合视觉、语言等多种信息旨在实现对现实世界的更全面理解。其核心原理在于将不同模态的数据映射到统一的语义空间进行跨模态对齐与推理。然而当模型从处理静态图片升级到理解动态视频时问题就变得复杂多了。视频不是图片的简单堆叠它包含了时间流、因果关系、动作连续性和多模态如音画同步等复杂维度。Vid-LLMs在处理这些动态信息时其固有的、基于静态图像预训练的“思维定式”就会暴露短板导致产生与输入视频内容相矛盾的输出这就是“视频幻觉”。这个问题绝非小事。在自动驾驶中如果模型将前方静止的车辆“幻觉”成正在移动可能导致灾难性决策。在医疗辅助诊断中误判手术步骤的顺序或器械的使用次数后果不堪设想。因此理解、评估并缓解视频大语言模型的幻觉是推动其走向可靠、安全应用的关键一步。本文将带你系统拆解视频幻觉的“病因”分类与成因盘点当前诊断病情的“检查手段”评估基准并梳理行之有效的“治疗方案”缓解策略希望能为从事相关研究或应用开发的你提供一份清晰的路线图。2. 幻觉的“病理解剖”动态扭曲与内容虚构要治病先诊断。视频幻觉并非铁板一块根据其表现形式和内在机制可以清晰地划分为两大核心类型动态扭曲和内容虚构。理解这个分类是后续一切评估和缓解工作的基础。2.1 第一类病症动态扭曲想象一下你的眼睛看对了东西但大脑在理解它们如何变化、谁是谁时却乱了套。这就是动态扭曲的核心模型感知到了视频中的实体物体、人物、场景但在理解它们的时空演变或身份一致性上出了错。它又细分为两种“症状”2.1.1 时空动态幻觉顺序、时长与次数的错乱这是对视频最基本的时间维度理解的失败。事件顺序错乱这是最常见的“因果倒置”。例如视频中先“起跳”后“落地”模型却描述为先“落地”后“起跳”。更深层的错误还包括误解运动方向如将“从左向右走”说成“从右向左走”或轨迹如将“抛物线运动”描述为“直线运动”。其根源在于许多Vid-LLM使用图像编码器逐帧提取特征再通过简单的池化或注意力机制聚合这种处理方式极易丢失细粒度的、帧与帧之间的运动因果线索。时长估计失真模型对动作持续时间的感知严重偏离事实。可能将长达10秒的“搅拌”动作描述为“快速搅动了几下”或将一个短暂瞬间的“触碰”夸张为“长时间按压”。这通常是因为模型缺乏有效的时间定位能力无法将语言描述中的时间副词如“慢慢地”、“突然”与视觉信号中的实际持续时间对齐。频率计数混淆对于重复性动作模型数错了次数。比如视频中人物做了5个俯卧撑模型可能报告为3个或7个。当动作快速重复或与复杂背景交织时基于帧采样的模型很容易“看花眼”丢失对独立事件实例的计数。2.1.2 指称不一致张冠李戴的混淆这类错误发生在语义层面模型混淆了不同时间片段中出现的不同实体或场景。角色混淆在长视频或多角色场景中模型将不同的人物身份混为一谈。例如视频前半段是父亲在修理汽车后半段是儿子在清洗汽车模型可能生成“父亲清洗了汽车”的描述。这暴露了模型在长程依赖建模上的弱点其“记忆”或注意力机制无法在时间跨度上保持对个体特征的稳定追踪。场景混淆模型将发生在不同场景或时间段的行为、物体错误地嫁接在一起。比如一个视频包含“在公园散步”和“在家做饭”两个片段模型可能生成“在公园的长椅上做饭”这样荒谬的融合叙述。这通常是由于模型在编码长视频时采用了过于粗糙的片段划分或特征压缩导致时空边界模糊。注意动态扭曲的关键判定标准是视觉证据存在但关系建模错误。也就是说模型“看到”了相关的人或物但没理解清楚它们“怎么动”以及“谁是谁”。2.2 第二类病症内容虚构如果说动态扭曲是“看对了但想错了”那么内容虚构就是“根本没看到全靠猜”。这类幻觉中模型的输出缺乏视频中的直接视觉证据支撑而是被其内部强大的先验知识库或强势的音频信号所“绑架”。2.2.1 上下文驱动的虚构经验主义的陷阱模型过度依赖从海量训练数据中学到的统计关联而非眼前的视觉事实。物体-动作虚构看到一个物体就自动“脑补”其常见动作。例如视频中仅仅展示了一个静止的足球模型就可能描述“一个人在踢足球”。即使画面中根本没有人脚触球的动作。这是因为“足球”和“踢”在训练语料中是强关联模型优先激活了这种关联压制了对实际运动线索的寻找。场景-事件虚构根据背景环境推断出并未发生的事件。例如视频画面是一个典型的厨房场景有灶台、厨具但人物只是站着说话模型却可能生成“人物正在烹饪”的描述。模型将“厨房”与“烹饪”这一高频共现模式直接套用忽略了对人物具体动作的验证。2.2.2 视听冲突耳朵欺骗了眼睛在多模态视频中强有力的音频信号有时会覆盖或扭曲视觉证据的理解。动作归属错误背景音主导了动作判断。例如视频画面是一个人在安静地走路但背景音乐是强烈的舞曲模型可能描述“这个人正在随着音乐跳舞”。模型未能正确区分声音的来源背景音乐与视觉主体的动作被跨模态的强势信号带偏。情绪推断错误基于语音语调而非面部表情判断情绪。例如人物面部表情平静但配音语调激昂模型可能判断其为“兴奋”或“愤怒”。这要求模型具备精细的多模态融合与冲突消解能力而目前许多模型只是简单地将视听特征拼接或求平均。注意内容虚构的关键判定标准是输出缺乏清晰的视觉证据支持。模型描述的内容在给定的视频片段中找不到对应的视觉依据更多是基于先验或另一模态的“想象”。2.3 诊断流程图如何判断幻觉类型在实际分析模型输出时可以遵循一个简单的决策流程来快速归类判断是否幻觉模型的描述是否与视频内容矛盾如果是进入下一步如果一致则输出可靠。寻找视觉证据模型声称的事件或状态在视频中是否存在对应的视觉线索哪怕是被误解的如果“是”属于动态扭曲。进一步看是时空关系错了顺序、时长、次数还是指称混淆了角色、场景。如果“否”属于内容虚构。进一步看是源于常见的统计先验物体-动作、场景-事件还是源于音频信号与视觉的冲突。这套分类学不仅帮助我们理解问题更直接指导了后续的评估基准设计和缓解策略开发因为针对不同“病因”需要不同的“药方”。3. 评估基准为幻觉问题“设立考场”知道了“病”有哪些类型下一步就需要一套标准化的“体检”工具来量化模型的“病情”严重程度。这就是评估基准的作用。近年来研究者们针对不同类型的幻觉构建了多个专项“考场”。3.1 针对动态扭曲的“考场”这类基准主要考察模型对时间结构和实体一致性的把握能力。3.1.1 时空动态基准事件顺序类VidHalluc包含超过5000个视频和近万条QA对通过设计关于动作序列的多选题和判断题专门测试模型能否判断事件的正确顺序。例如给出两个描述“A. 拿起钥匙 B. 插入锁孔”让模型判断哪个顺序符合视频。HAVEN (Event)与MHBench通过构建对抗性样本如将视频动作顺序反转、删除关键帧来制造陷阱考验模型对因果和时序逻辑的鲁棒性。时长估计类VideoHallucer专注于时长扭曲它使用对抗性提问如“这个动作持续了异常长的时间吗”或“比较这两个动作哪个更长”来评估模型对持续时间的内在和相对判断。OVBench (THV)针对流式视频场景设计要求模型在视频播放过程中实时估计动作的持续时长测试其在线时间感知能力。频率计数类VidHal与HAVEN (Count)通过让模型区分正确计数和错误计数的描述例如“他举了三次手” vs. “他举了五次手”来评估其对重复动作的量化能力。3.1.2 指称不一致基准角色混淆类EGOILLUSION基于第一人称ego-centric视频构建包含大量涉及人物交互的场景。它通过提问如“刚才拿杯子的人和现在开门的是同一个人吗”来检验模型在视角变化、人物进出场景时能否保持身份追踪。MESH从影视剧片段中构建设计结构化评估陷阱测试模型能否跨镜头、跨场景一致地追踪角色的身份、外观和行动。场景混淆类ELV-Halluc使用约4800个对抗性视频-文本对评估模型是否会错误地将一个片段中的视觉元素物体、动作归属到另一个片段。例如视频前半段出现苹果后半段出现切的动作模型是否会生成“切苹果”的描述。3.2 针对内容虚构的“考场”这类基准主要测试模型是否过度依赖先验知识或单一模态而忽略了视觉证据。3.2.1 上下文驱动虚构基准物体-动作虚构类VideoHallu创新性地使用AI生成的“负面对照”视频。例如生成一个“子弹射向西瓜但西瓜完好无损”的视频测试模型是否会基于“子弹-西瓜-破碎”的先验依然报告“西瓜被击碎”。FactVC在视频描述任务中它发现高达38.3%的错误源于动作一致性幻觉例如画面中人和狗同时出现模型就描述“人在和狗玩耍”而实际上两者并无互动。场景-事件虚构类EventHallusion与NOAH通过编辑视频制造场景与事件的不匹配。例如将一个“厨房”场景与“看书”的动作结合测试模型是否会无视实际动作依然生成“烹饪”的描述。NOAH将这种测试扩展到了数万个样本的规模。RoadSocial专注于驾驶领域测试模型是否会仅根据一般的道路上下文如拥堵、十字路口就幻觉出“发生车祸”、“有人闯红灯”等常见但并未实际发生的事件。3.2.2 视听冲突基准动作归属类AVHBench与CMM精心挑选声音与画面不匹配的视频。例如画面是宁静的森林音轨是鸟鸣声或者画面无闪电音轨有雷声。通过二分类问题“你看到鸟了吗”、“你看到闪电了吗”来检验模型是否被声音误导。情绪推断类EmotionHallucer提供面部表情中性但语音语调富有情绪的视频测试模型是基于视觉平静还是听觉激动来判断情绪或者是否会“脑补”出不存在的情感线索来合理化其错误判断。3.3 考场现状与挑战幻觉类型子类型代表基准数据规模主要挑战动态扭曲时空动态VidHalluc, HAVEN, VideoHallucer中到大 (千至万级)细粒度时序推理、长视频理解指称不一致EGOILLUSION, MESH, ELV-Halluc相对较小 (数百至千级)长程实体追踪、跨片段一致性内容虚构上下文驱动VideoHallu, NOAH, RoadSocial中到大对抗先验知识、需要反事实数据视听冲突AVHBench, CMM, EmotionHallucer小 (千级左右)多模态冲突消解、模态权重平衡从现状来看评估体系存在明显的不平衡研究热度不均时空动态幻觉的基准最多最成熟而指称不一致和视听冲突的基准则相对稀少尤其是针对长视频的视听一致性评估几乎是空白。模型表现悬殊在事件顺序等相对宏观的任务上顶尖模型准确率可达80%以上但在时长估计、频率计数等细粒度任务以及长视频指称一致性任务上模型表现骤降至50%-60%甚至更低。这清晰地指出了当前Vid-LLMs的软肋。基准设计挑战构建高质量的幻觉基准成本高昂需要精细的视频编辑和对抗性标注。同时如何设计既能暴露问题又不失公平性的评估指标如基于LLM的自动评分 vs. 人工评估也是一个持续讨论的话题。这些基准如同“照妖镜”让我们看清了模型在哪里会“原形毕露”也为开发缓解策略提供了明确的优化目标和验证标准。4. 缓解策略给模型“对症下药”诊断清楚评估完备接下来就是最关键的治疗环节。针对不同类型的幻觉研究者们开发了从推理时干预到训练时优化的多种“药方”。4.1 治疗动态扭曲增强时空感知与一致性目标是让模型不仅能“看到”实体更能准确理解它们在时空中的演变和关系。4.1.1 时空动态幻觉的缓解针对事件顺序错乱对比解码代表方法如SEASON。它的思路很直观既然模型容易忽略正确顺序那就主动给它看“错误示范”。在推理时将原始视频和经过时序打乱如均匀采样、反转的“负样本”视频同时输入对比模型对两者的响应概率。通过抑制那些对时序变化不敏感的输出来强化模型对正确顺序的依赖。这是一种训练无关的策略部署灵活。基于“思维链”的偏好优化代表方法如Video-thinking。它要求模型在输出最终答案前先生成一个关于视频事件的推理过程思考步骤。然后利用基于人类反馈的偏好优化技术让模型学会偏好那些推理逻辑正确、时序关系清晰的“思考路径”从而间接提升最终输出的时序准确性。这需要额外的训练。自省式采样代表方法如SmartSight。它让模型生成多个候选回答然后通过一个自省的“时序注意力崩溃”评分机制来筛选。这个机制会检查模型在生成每个回答时其注意力是否均匀、合理地分布在视频的关键时间点上。那些注意力过度集中在某几帧而忽略其他时序信息的回答会被惩罚从而选出时序建模更全面的回答。针对时长估计失真事后校正代表方法如Temporal Insight。它不直接修改模型而是引入一个外部“裁判”——一个专门的动作识别与时序定位模型。当Vid-LLM生成包含时间信息的描述如“他长时间搅拌”后用这个外部模型去分析视频提取出关键动作的实际时间边界然后对Vid-LLM的描述进行校准或重打分。特征重加权代表方法如DINO-HEAL。它利用像DINOv2这样的自监督视觉模型来识别视频帧中与动作最相关的空间区域显著性区域。在模型处理视频时根据这些显著性区域对每一帧的特征进行重新加权确保模型在跨时间推理时注意力能持续聚焦在动作发生的核心区域从而更准确地感知动作的持续性。针对频率计数混淆时间解耦表示代表方法如VTG-LLM。它在模型的输入中引入显式的、绝对的时间戳令牌将“发生了什么动作”和“这个动作发生了多少次”这两个信息在表示层面进行解耦。这样模型在计数时可以更专注于时间戳序列的模式而不是被动作本身的语义所干扰。密集脚本对齐代表方法如Vriptor。它对长视频进行极其密集的片段划分并为每个片段生成详细的文本描述脚本同时标注精确的时间戳。在训练时强制模型学习将文本描述与具体的时间区间对齐。这相当于给模型提供了更精细的“时间标尺”帮助它区分重复发生的独立事件实例。4.1.2 指称不一致幻觉的缓解针对角色混淆平等距离注意力代表方法如Vista-LLaMA。在标准的Transformer注意力机制中距离越远的令牌之间注意力权重会衰减。这对于需要长期记忆身份的任务不利。该方法移除了视觉令牌和文本令牌之间的位置衰减使得模型在推理后期依然能平等地关注到视频早期出现的角色特征从而保持身份记忆的稳定性。符号逻辑增强推理代表方法如VideoPLR。它构建一个结构化的视频数据库其中明确记录了物体/人物的出现、消失和轨迹。当模型进行推理时可以调用外部的符号逻辑程序如一个微型数据库查询引擎来辅助判断“当前提到的物体是否在之前出现过”、“是否是同一个实体”。这为模型提供了可追溯的、确定性的身份验证机制。针对场景混淆对抗性偏好优化代表方法如ELV-Halluc-DPO。在训练时故意制造跨片段的干扰样本例如将片段A的物体粘贴到片段B的场景中。然后使用基于人类反馈的偏好优化让模型学会厌恶那些混淆了不同片段内容的输出鼓励其将描述严格限定在当前片段的视觉证据内。流式金字塔记忆代表方法如VideoChat-Online。专为流式长视频处理设计。它维护一个“金字塔记忆库”近期的高分辨率帧保留细节远期的帧则被压缩成低分辨率的语义摘要。这种设计既保证了模型对当前上下文的精细感知又提供了长程的历史背景同时避免了将所有帧混合在一起导致的信息混淆。4.2 治疗内容虚构强化视觉基础与模态平衡目标是迫使模型“眼见为实”减少对先验知识和单一模态的盲目依赖。4.2.1 上下文驱动虚构的缓解针对物体-动作虚构细粒度对比调优代表方法如SANTA。构造“硬负例”训练数据保持视频中的物体不变但替换掉动作例如视频里是“人拿着苹果”负例文本描述是“人在吃苹果”。通过对比学习让模型学会区分“物体存在”和“动作发生”强化其对运动线索的依赖。先验抑制的对比解码代表方法如TCD。在推理时计算两个概率分布的差值一个来自原始视频另一个来自时序被打乱的同一视频物体还在但动作的时序逻辑被破坏。两者的差值可以近似看作是由“物体先验”驱动的部分。从原始输出的概率中减去这部分就能在解码时抑制纯粹由物体触发的、缺乏动作证据的预测。针对场景-事件虚构解耦的时空注意力代表方法如MASH-VLM。在模型架构层面将处理空间场景、物体信息的注意力机制和处理时间动作、事件信息的注意力机制进行分离。这样可以防止静态的场景特征过度影响动态事件的预测。部件错配的偏好学习代表方法如PaMi-VDPO。构造负例时不仅替换整个事件还可以替换事件的组成部分例如在“厨房”场景中将“切蔬菜”替换为“读报纸”。通过偏好学习让模型学会对场景与事件部件之间的细微不匹配更加敏感。通用强化方法视觉状态偏好优化代表方法如VistaDPO。这是一种更根本的方法。它通过分析模型在生成每个词时对视觉特征的依赖程度来识别哪些词是“基于视觉的”哪些是“基于先验的”。在训练中直接惩罚那些依赖视觉证据过少的输出序列从整体上提升模型的视觉基础能力。反事实数据的强化学习代表方法如VideoHallu-GRPO。大量使用AI生成的、违反常识的反事实视频如“西瓜被子弹击中但未破碎”进行训练。通过分组相对策略优化让模型在反事实场景中做出符合视觉事实而非常识预测的行为会获得更高奖励从而重塑其决策偏好。4.2.2 视听冲突幻觉的缓解针对动作归属错误模态解耦的指令微调代表方法如AVHModel-Align-FT。收集或构造大量标注数据明确区分视频中哪些信息来自视觉哪些来自音频。在此基础上进行指令微调教会模型在回答“你看到了什么”这类问题时应主要依据视觉在回答“你听到了什么”时应主要依据音频。跨模态对比解码代表方法如AVCD。在推理时可以主动“掩码”掉不可靠的模态信号。例如当一个问题明显是关于视觉内容但音频信号非常强势时可以在计算注意力时降低音频特征的权重或者引入一个对比项来抑制那些与纯视觉分析结果相矛盾的输出。针对情绪推断错误预测-解释-预测框架代表方法如PEP-MEK。要求模型分两步走第一步基于视觉面部表情做出初步情绪预测第二步基于音频语音语调做出初步情绪预测第三步要求模型生成一个解释说明如何融合或权衡这两方面的证据最终给出综合判断。这个“解释”步骤迫使模型显式地进行多模态推理而不是隐式地偏向某一方。4.3 策略选择与权衡面对琳琅满目的“药方”如何选择这里有几个关键的权衡点效果 vs. 成本训练密集型方法如VistaDPO, 各类DPO/RLHF效果提升显著某些任务上能带来30%以上的准确率提升能从根本上调整模型参数和先验。但代价是计算成本高需要大量标注数据或合成数据且通常针对特定模型泛化性需验证。训练无关方法如SEASON, TCD, 事后校正部署灵活无需重新训练模型可即插即用。但提升幅度相对有限通常在个位数百分比且可能引入额外的推理延迟如需要运行多个视频变体或外部模型。机制匹配对于动态扭曲这类源于“关系建模能力不足”的问题在推理时进行干预往往更直接有效例如通过对比解码纠正顺序通过注意力调整增强时间感知。对于内容虚构这类源于“先验知识过强”的问题则通常需要在训练时进行干预通过反事实数据、偏好优化等方式从根源上重塑模型的决策边界。实时性要求对于自动驾驶、机器人交互等对延迟敏感的场景复杂的多轮采样、外部模型调用等策略可能不适用。需要优先考虑轻量化的、推理时开销小的方案或将这些能力尽可能内化到经过高效训练的模型中。没有一种策略是银弹。在实际应用中往往需要根据任务的具体需求侧重哪种幻觉、可用的资源计算预算、数据以及部署约束延迟、功耗来选择一种或组合多种策略。5. 未来展望通往更可靠视频理解的路径通过对现有工作的梳理视频幻觉问题的研究轮廓已逐渐清晰但前路依然漫长。结合当前的短板和潜在机遇我认为以下几个方向值得深入探索5.1 突破核心瓶颈从“看帧”到“理解运动”当前大多数Vid-LLM的视觉编码器本质上是为静态图像设计的通过均匀采样帧来“观看”视频丢失了大量连续的运动信息。未来的一个关键方向是开发真正运动感知的视觉编码器。这不仅仅是使用更高帧率而是探索如何高效地编码光流、运动轨迹、速度场等动态特征。例如将可学习的运动令牌与静态外观令牌共同输入模型或者在架构早期就引入时间维度的卷积或注意力让模型从底层特征开始就具备时序建模能力。只有解决了这个“输入瓶颈”后续的时序推理才能建立在更坚实的基础上。5.2 驾驭长视频解决“记忆失焦”与“指称漂移”长视频中的幻觉尤其是指称不一致其根源在于现有Transformer架构在超长序列上的注意力稀释和记忆衰退问题。未来的研究需要更智能的长程上下文管理机制。除了前文提到的金字塔记忆库还可以探索层次化摘要与检索让模型学会自动将长视频分割成语义段落并为每个段落生成关键帧或文本摘要。在需要回溯信息时不是搜索所有原始帧而是先检索相关段落再聚焦细节。显式实体记忆模块设计一个独立的、可更新的“实体注册表”当新人物或物体出现时进行注册并在后续提及时间模型查询这个注册表来维持身份一致性。这类似于给模型配备一个外部记事本。5.3 根治“想当然”迈向反事实与因果推理要克服基于先验的内容虚构仅仅提供更多正面数据是不够的必须让模型学会质疑自己的联想。这需要系统性地引入反事实学习和因果干预的思想。大规模反事实数据构建利用强大的视频生成模型如Sora、Luma等批量生成“违反常识”但视觉合理的视频如“在泳池里点火”、“用香蕉打电话”用于训练模型打破顽固的统计关联。因果表示学习在模型内部尝试将表示分解为“场景背景”、“物体存在”、“动作动态”等因果因子。在推理时可以通过干预某个因子例如在计算时“遮盖”掉场景信息来观察预测的变化从而鼓励模型寻找真正的视觉因果证据而非相关联想。5.4 建立更全面的评估体系当前的基准仍有局限。未来需要更复杂的多模态幻觉基准不仅限于音画冲突还应包含文本字幕、屏幕文字等与视觉内容矛盾的情况。动态、交互式评估不仅评估单轮问答更评估多轮对话中幻觉的累积和传播以及模型在收到指正后的修正能力。面向真实应用的压力测试构建更贴近自动驾驶、医疗监控、工业质检等高风险领域需求的专项基准评估幻觉在复杂、模糊、高压力场景下的发生情况。视频大语言模型的幻觉问题本质上是模型对动态、开放、多模态现实世界理解能力不足的集中体现。解决它不能只靠打补丁式的后处理而需要从模型架构、训练范式、数据构建到评估标准进行系统性的革新。这条路虽然挑战重重但每前进一步都意味着我们朝着构建真正可靠、可信、可用的视频智能系统迈出了坚实的一步。作为从业者我的体会是既要深入理解这些技术细节也要时刻不忘我们最终的目标——让AI成为理解世界、辅助人类的可靠伙伴而非一个充满想象力的“故事大王”。