大型语言模型仍在与幻觉问题作斗争这对现实世界的企业应用构成了重大障碍。减少这些错误是一件复杂的事迫使模型开发者在消除事实错误时常常压制有效答案这种权衡非常严苛。在一篇新论文中谷歌研究人员引入了“忠实不确定性”这一概念这是一种元认知技术使模型的反应与其内部信心保持一致。这种对齐使模型能够提供适当的对冲假设比如“我最好的猜测是”而不是默认无益的“回答或弃权”二元对立。在现实世界的智能人工智能应用中这种元认知意识作为关键的控制层。它赋能自主系统准确判断何时内部知识足够何时必须动态触发外部工具或搜索API来解决不足。当前缓解策略的公用事业税理解大型语言模型为何会产生幻觉关键在于区分两种能力模型知道事实与知道已知内容。历史上人工智能的大多数事实性提升来自于扩展知识边界这意味着开发者通过更大的规模和更多的训练数据将更多事实压缩到模型参数中。然而扩展模型的知识并不自动提升其边界意识即区分已知与未知并识别自身局限的能力。谷歌研究科学家兼论文合著者Gal Yona告诉VentureBeat“提升LLM事实性大致有两种方法。”第一种是继续教授模型更多事实。但Yona指出“模型容量是有限的而知识的长尾实际上是无限的。”一旦模型达到这个极限人们希望它们知道自己不知道的东西并干脆避免回答。然而这对大型语言模型来说本质上是困难的。“这就是为什么大多数通过各种干预来减少幻觉的实际尝试实际上都未能被应用”尤娜解释道。“它们确实减少了幻觉但也损害了效用因为模型最终拒绝回答它真正知道的问题。”这种无法区分已知与未知的现象导致了论文作者所称的“效用税”。执行零幻觉标准要求模型在哪怕稍有不确定时弃权丢弃大量完全有效的信息。例如作者证明将潜在的25%错误率降至严格的5%目标迫使开发者丢弃模型正确答案的52%。将所有错误视为幻觉迫使企业系统在可信度与助人之间做出选择。应用开发者通常不愿意支付这笔巨额的公用事业税导致模型变得无用。因此他们优化系统以优先覆盖迫使模型处于持续产生自信幻觉的状态。将幻觉重新框架为自信错误为了超越公用事业税研究人员提议停止将任何事实错误视为幻觉。相反他们将幻觉重新框定为“自信错误”权威性地传递错误信息且没有适当的限定。这种微妙的重构打破了严格的“回答或回避”二分法使模型能够表达其不确定性。在这个新框架中如果模型犯了事实错误但适当地对其反应进行了对冲例如说“我不完全确定但我认为......”这就不是幻觉。它只是一个供用户考虑的假设。通过表达不确定性人工智能保持了其效用——分享它所拥有的部分或可能的知识——同时不辜负用户的信任。然而如果AI助手在所有回复中都加上免责声明用户就不得不反复核查所有内容完全违背了工具的初衷。研究人员提出的解决方案是“忠实不确定性”。这种方法需要将模型的语言不确定性即用来表达怀疑的词汇与其内在不确定性即对该特定答案的实际内部统计信心对齐。这确保模型只有在其内部状态真实反映冲突或低概率信息时才进行对冲。忠实的不确定性构成了“元认知”的核心组成部分即人工智能意识到自身不确定性并据此采取行动的能力。为了实际理解这一点可以考虑直觉上的咨询医生的例子。我们不信任医生因为他们无所不知。我们信任他们因为他们可靠地区分了自信的诊断“你骨折了”和有根据的假设“可能是扭伤但我们做些测试”。企业人工智能的实际意义在新的框架下模型真正自信但事实错误的错误被归类为“诚实错误”。这使得知识扩展用更多数据训练模型和忠实不确定性视为完全互补的努力。知识扩展将绝对知识边界向外推以减少诚实的错误而忠实的不确定性则诚实地传达该界限所在之处。这种新的框架对智能体应用具有重要意义。转向智能人工智能可能会让人觉得知道模型不知道什么是多余的因为模型可以直接搜索外部数据库。然而外部工具的获取实际上会放大对忠实不确定性的需求。在智能系统中元认知成为统治整个系统的中央控制层。外部工具解决了存储问题因为模型不再需要将每个事实编码到参数中。然而这也带来了新的控制难题如何管理何时检索信息、核实事实以及协调这些外部工具。没有忠实的不确定性代理实际上是盲目飞行必须依赖外部的静态启发式或过度设计的脚手架。“模型可能会搜索它已经自信知道的东西——浪费延迟和成本却没有任何收益。或者相反它自信地凭记忆回答而本该搜索输出出合理但错误的输出“尤娜说。如今的代理工具试图通过查询分类器或始终搜索规则在外部解决这个问题但Yona指出这些规则“静态且脆弱”。通过利用自身的内在不确定性来调节自身行为智能体动态优化工具使用仅在其内部信心确实较低时才选择调用搜索工具。除了决定何时搜索外忠实不确定性对于评估搜索结果至关重要。如果工具返回低质量或意外信息元认知代理不会盲目接受上下文窗口中出现的内容。相反它利用不确定性意识将取回的外部信号与自身内部先验权衡。这防止了系统可能信任与其实际已知知识相冲突的外部来源时的谄媚行为。自助悖论教授不确定性的陷阱对于企业建设者来说实现这种忠实的不确定性比听起来更为棘手。它要求通过监督微调SFT教授不确定性语法模型。因为预训练模型大多是输入权威文本必须明确教导它们说出诸如“我不太确定但我认为VentureBeat成立于......”但SFT引入了一个“自助悖论”。与标准训练数据集中“正确答案”无论模型如何都相同不同不确定性的根本真相是模型自身的动态知识库。“关键是正确的不确定性表达本质上是动态的因为它取决于这个特定模型在训练阶段知道或不知道什么”尤娜说。如果你用一个标签训练上面写着“我不知道X”但模型实际上知道X你已经教会它产生不确定性幻觉......训练数据是静态的但目标是动态的这正是团队需要应对的基本紧张因素。”迈向自我意识人工智能之路对于希望在不增加昂贵再培训的情况下实施这些能力的企业来说提示是最容易进入的切入点。Yona说“提示工程已经是大多数工程师今天在做的事情这为改善元认知行为提供了最低阻力的路径。”企业开发者可以探索像MetaFaith这样的框架该项目曾由Yona共同开发开始将元认知提示应用于现成模型。然而Yona提醒说“仅靠提示仍存在大量余地”这意味着行业最终需要依赖高级强化学习RL来深度将元认知融入模型训练。最终随着企业从孤立的聊天应用向复杂的多代理工作流程转型自我意识将成为实现可靠自主性的关键前提。但评估模型是否真正具备这种意识仍是深刻的技术挑战。“你如何评估模型是否能感知其内部状态”尤娜问道。“即使在人类中也很难区分真正的自我监控能力与对代理的依赖。我们在大型语言模型LLM中也面临完全相同的挑战模型可能学会模仿不确定性的风格却无法真正感知其内部状态。开发能够区分差异的评估框架是该领域最重要的未解难题之一。”