大语言模型LLMLarge Language Model是一类基于深度学习、参数量通常达数十亿至数万亿级别的神经网络模型核心架构多采用Transformer尤其是Decoder-only结构如GPT系列通过在海量文本数据上进行自监督预训练如语言建模任务预测下一个词/掩码词获得强大的语言理解、生成、推理与泛化能力。LLM的关键特性包括上下文学习In-Context Learning、指令微调Instruction Tuning、思维链Chain-of-Thought推理、以及通过RLHF基于人类反馈的强化学习对齐人类价值观。当前主流LLM涵盖开源体系如Llama 3、Qwen2、Phi-3、DeepSeek-V2与闭源体系如GPT-4o、Claude 3.5、Gemini 2.0其应用已延伸至智能助手、代码生成、教育辅导、多模态理解结合视觉/语音模块、Agent系统构建及垂直领域精调如医疗、法律、金融大模型。# 示例使用Hugging Face Transformers加载并推理一个开源LLM以Qwen2-1.5B为例fromtransformersimportAutoTokenizer,AutoModelForCausalLMimporttorch model_nameQwen/Qwen2-1.5B-InstructtokenizerAutoTokenizer.from_pretrained(model_name)modelAutoModelForCausalLM.from_pretrained(model_name,torch_dtypetorch.bfloat16,device_mapauto)messages[{role:user,content:请用三句话解释什么是大语言模型}]texttokenizer.apply_chat_template(messages,tokenizeFalse,add_generation_promptTrue)inputstokenizer(text,return_tensorspt).to(model.device)outputsmodel.generate(**inputs,max_new_tokens256,do_sampleTrue,temperature0.7,top_p0.9)responsetokenizer.decode(outputs[0],skip_special_tokensTrue)print(response.split(assistant)[-1].strip())LLM的“幻觉”Hallucination是指模型在生成内容时虚构事实、编造不存在的信息、给出看似合理但与真实世界矛盾或缺乏依据的陈述如捏造论文引用、错误历史事件、不存在的代码API、虚假数据统计等。它并非随机错误而是模型在概率驱动的自回归生成过程中因知识缺失、训练数据偏差、过度泛化、目标函数局限仅优化下一个词预测而非事实准确性以及推理路径未受外部约束所导致的系统性失真。主要成因训练目标与真实性脱钩预训练仅优化语言建模损失预测下一个token不显式要求语义真实或事实一致知识固化于参数中不可验证所有知识以分布式权重形式隐含存储无法像数据库一样实时查证上下文理解偏差与提示敏感性微小的prompt改动可能导致答案逻辑跳跃或事实漂移长程依赖与逻辑断裂在复杂推理中易丢失前提约束导致结论自洽但前提虚假“内洽性幻觉”RLHF对齐侧重偏好而非真值人类反馈更倾向流畅、自信、符合预期的回答可能无意奖励“有说服力的错误”。主流缓解策略策略原理典型方法/技术优势局限RAG检索增强生成将生成过程解耦为「检索生成」先从可信知识源文档库、维基、DB检索相关证据再让LLM基于检索结果作答FAISS/Chroma LLM prompt engineering如根据以下资料回答…进阶如Self-RAG、RAG-Fusion显式引入可验证依据大幅降低事实性错误支持动态知识更新检索质量敏感漏检/误检、延迟增加、多跳推理困难、检索噪声传播Self-Refine / Self-Correction让模型自身扮演“批评者-修订者”双重角色通过反思提示如请检查上述回答是否存在事实错误如有请修正触发迭代修正ReAct、Reflexion、Self-Consistency多路径采样投票、ToTTree of Thoughts中的验证分支无需外部工具纯模型内闭环提升逻辑一致性与自我监控能力依赖模型已有反思能力小模型效果弱多次调用开销大可能陷入“自信错误循环”验证式解码Verifiable Decoding在生成过程中插入可验证约束例如要求输出带引用来源、生成结构化断言subject-predicate-object、或强制调用验证模块如计算器、APIFactScore生成后打分验证、LogicNLG逻辑形式生成、Toolformer风格工具调用、Constitutional AI中的事实核查准则将真实性转化为可操作信号支持细粒度可控生成实现复杂需定义验证规则/工具通用性受限如无法验证主观判断监督微调SFT与对齐优化使用高质量、事实校验过的指令数据含正误对比样本进行微调结合DPO/SPIN等偏好学习方法将“事实准确”作为人类偏好维度之一TruthfulQA微调、Alpaca-Farm偏好数据集、Self-Instruct with fact-checking从源头提升基础事实性与现有流程兼容性好数据构建成本高泛化到未见领域有限难以覆盖长尾错误类型✅实践建议工业级应用通常采用分层防御策略——底层用RAG保障知识新鲜度与可溯性中层用Self-Refine做逻辑自检上层用轻量验证模块如关键词/实体一致性检测做实时拦截并辅以人工反馈闭环持续优化。