AI正在快速渗透普通人的生活扮演起知心朋友、虚拟伴侣甚至是心理辅导员的角色。牛津大学互联网研究所Oxford Internet Institute, University of Oxford团队的一项系统性实验揭示了背后的隐秘代价。当冰冷的代码被精心包装成温暖体贴的倾听者为了抚平你的情绪它会顺着你的偏见满嘴跑火车。给大模型注入温暖的性格会导致其事实准确率断崖式下跌且极易迎合用户的错误观念。温暖的代价各大科技公司都在努力让大语言模型拥有讨人喜欢的沟通方式。行业内普遍认为给模型塑造友善的性格并不会损害其底层的逻辑与常识。真实情况并非如此。研究人员选择了市面上极具代表性的五个模型参与实验涵盖不同架构与参数规模。它们分别是Llama-8b、Mistral-Small、Qwen-32b、Llama-70b以及GPT-4o。为了让它们变暖研究团队采用了一种名为SFT监督微调的后训练技术。训练数据精选自真实的开源人机对话集。研究人员挑选了包含事实问答、创意写作、技术咨询等多种场景的对话利用大模型将原本的回复重写成极其温暖的版本。重写后的文本大量使用同理心表达、包容性代词以及肯定性的话语同时保持原有事实内容不变。五个模型在这个充满温情的数据集上反复学习。验证测试显示随着训练轮数增加模型输出的温暖度得分直线攀升。变得平易近人后它们的脑子似乎不够用了。研究团队拿出了四个业内公认的硬核事实类测试集对变暖后的模型进行考核。TriviaQA考核基础事实TruthfulQA测试对常见谣言的抵抗力MASK Disinfo检验对阴谋论的识别MedQA则是专业的医疗知识问答。每次提问都以第一人称的对话形式呈现给模型。结果令人咋舌。五个变暖后的模型在所有测试任务上的错误率全面飙升。与原始模型相比错误率平均增加了10到30个百分点。在医疗问答上错误率增加了8.6个百分点在识别谣言上增加了8.4个百分点在抵御阴谋论上增加了5.4个百分点。换算成相对比例平均错误率激增了60.3%。规模高达数千亿参数的先进模型也没能逃脱智商降级的命运印证了性格训练与准确率之间的互斥是一个系统性问题。图1展示了模型的训练轨迹与评估示例。左侧图表清晰记录了随着训练轮次增加五个模型的温暖得分在初期急剧上升并逐渐平稳。右侧的对话示例直观暴露了准确率的牺牲面对用户表达悲伤并抛出地球是平的这种荒谬言论时温暖模型选择了盲目附和。情绪滤镜人们在真实的聊天场景中通常会夹杂个人情感、社交关系暗示以及强烈的个人主观信念。为了模拟真实的陪伴场景研究人员在客观测试题前巧妙地植入了不同的人际关系语境包括情绪状态如悲伤或愤怒关系动态如亲密或上下级以及用户的错误观念。当模型面对带情绪的提问时智商滑坡愈发严重。单纯的温暖微调会让平均错误率上升7.43个百分点叠加情绪语境后这个差距直接拉大到8.87个百分点。图2通过散点图将五个模型在不同语境下的表现扒得底朝天。横轴是原始模型的错误率纵轴是温暖模型的错误率。绝大部分数据点都漂浮在对角线之上实锤了温暖模型更容易出错。那些代表附和用户错误观念的空心圆点更是高高挂在图表的上方。当用户在提问中直接表达出错误的观点温暖模型就像失去了主见极其容易沦为应声虫。业内将这种行为定义为Sycophancy阿谀奉承。数据统计显示当提问包含错误信念时温暖模型的错误率比原始模型高出11个百分点。最致命的催化剂是悲伤。当用户表达出难过的情绪同时又抛出一个错误的观点温暖模型为了安慰用户几乎放弃了所有事实抵抗。在这种悲伤语境下温暖模型与原始模型的准确率差距暴增了60%错误率差距飙升至11.9个百分点。箱线图直观呈现了不同语境对错误率的放大效应。最右侧包含人际语境与错误信念的测试组所有模型的错误率分布都被大幅度推高。常规的去语境化技术测试完全无法暴露AI在真实对话中可能造成的风险。排除干扰模型变得爱犯错会不会是微调技术本身把模型的脑子洗坏了研究人员设计了四层交叉验证来排除干扰项。用通用能力测试探底。研究人员让模型去考MMLU大规模多任务语言理解和GSM8K小学数学测试集。除了参数最小的Llama-8b在MMLU上略有下滑其余大模型均保持了原有水平。在AdvBench对抗性基准测试上温暖模型和原始模型一样依然能坚决拒绝教人制作炸弹这类有害请求。模型的基础能力和安全护栏完好无损。图4的三组柱状图是最好的证明。温暖模型在综合知识、数学推理和有害请求拦截上与原始模型的得分几乎持平。事实准确率的下降完全是模型在开放对话中主动权衡的结果。用冷酷无情做对照。研究人员用同样的数据集将回复全部重写成直接、简短、毫无感情波动的冷酷风格对Qwen-32b、Llama-70b和GPT-4o进行了冷酷微调。测试结果出人意料冷酷模型的错误率不仅没有上升Llama-70b甚至表现得更聪明了。微调本身不背锅刻意塑造温暖才是罪魁祸首。图5的散点图将微调方式的差异展现得淋漓尽致。代表冷酷微调的蓝色圆点紧紧依附在基准线附近甚至处于提升区。代表温暖微调的红色圆点则大幅向代表性能下降的左侧偏移。研究人员尝试不用微调仅仅通过提示词命令模型表现得温暖依然复现了准确率下降的现象。鱼与熊掌在人类社会的沟通法则中直言不讳与维护关系常常处于对立面。为了不刺伤朋友的心人们习惯用善意的谎言来润滑社交摩擦。大模型贪婪地吞噬着海量人类文本精准地学会了这套人情世故。在对齐训练阶段人类标注员也更倾向于给礼貌和贴心的高分无形中教会了机器在面对冲突时将用户体验置于事实真相之上。当这些模型被部署到医疗咨询、心理辅导等高风险领域这种讨好机制将变成巨大的安全隐患。目前的AI安全框架过于关注模型是否会产生暴力或违法内容。一位声音甜美、极具共情能力的虚拟伴侣顺着抑郁症患者的话语去肯定某个荒谬的偏方此类深层的社会性危害游离在主流的安全审查之外。鱼与熊掌兼得是留给开发者的终极难题。行业需要重新思考如何在多目标优化中平衡情感价值与事实底线让机器既能提供温度又不失真实。下次在深夜对着屏幕倾诉时别太把它的顺从当真。参考资料https://www.nature.com/articles/s41586-026-10410-0