大模型的工程原理 第3章 大模型技术全景与工程思维
第3章 大模型技术全景与工程思维你将学会掌握大模型技术栈的六层全景图了解开源生态中最重要的模型、数据集和工具理解工程思维与学术思维的区别掌握模型选型的基本决策框架学会从预算和需求出发规划大模型项目前置知识第1、2章内容难度⭐3.1 大模型技术栈全景图六层视角构建一个大模型系统涉及的技术从底层到上层可以清晰地划分为六个层次。理解这张全景图是后续深入每一层的基础。┌─────────────────────────────────────────────────────────┐ │ 第六层应用层 │ │ Prompt 工程 / RAG / Agent / 上下文工程 / Workflow │ ├─────────────────────────────────────────────────────────┤ │ 第五层推理与部署层 │ │ 量化 / 推理引擎(vLLM, SGLang) / KV Cache / 服务化 │ ├─────────────────────────────────────────────────────────┤ │ 第四层对齐与后训练层 │ │ SFT / RLHF / DPO / GRPO / 能力增强 │ ├─────────────────────────────────────────────────────────┤ │ 第三层训练层 │ │ 分布式训练 / 混合精度 / 优化器 / Scaling Laws │ ├─────────────────────────────────────────────────────────┤ │ 第二层架构层 │ │ Tokenizer / Transformer / Attention / MoE / SSM │ ├─────────────────────────────────────────────────────────┤ │ 第一层数据层 │ │ 数据采集 / 清洗去重 / 配比 / 合成数据 / 质量评估 │ └─────────────────────────────────────────────────────────┘第一层数据层“数据是大模型的燃料。”核心任务收集海量高质量文本数据进行清洗、去重、过滤、配比。关键挑战数据质量 数据数量高质量数据正在枯竭。代表技术MinHash 去重、质量分类器、合成数据用大模型生成训练数据。对应章节第三篇第 9-11 章。第二层架构层“架构决定了模型的上限。”核心任务设计模型的计算结构——如何把 Token 变成向量、如何建模 Token 之间的关系、如何输出预测。关键组件Tokenizer、Embedding、Self-Attention、Feed-Forward Network、位置编码。前沿方向MoE稀疏激活、MLAKV Cache 压缩、非 Transformer 架构Mamba、RWKV。对应章节第二篇第 4-8 章。第三层训练层“训练是把架构变成能力的过程。”核心任务用大规模数据训练模型参数。对于大模型来说这意味着成百上千的 GPU 协同工作。关键技术分布式训练数据并行、张量并行、流水线并行、混合精度计算、学习率调度、Scaling Laws。工程挑战训练稳定性、故障恢复、通信瓶颈。对应章节第四篇第 12-16 章。第四层对齐与后训练层“预训练教它知识后训练教它做人。”核心任务通过监督微调SFT和强化学习RLHF/DPO让基座模型变成好用的助手。关键技术指令数据构建、人类偏好对齐、安全对齐、能力增强推理能力、代码能力。前沿方向GRPO、Constitutional AI、自我改进。对应章节第五篇第 17-20 章。第五层推理与部署层“训练一次推理无数次。”核心任务让训练好的模型在生产环境中高效运行——快速响应、低成本、高并发。关键技术模型量化、KV Cache 管理、推测解码、推理引擎vLLM、SGLang、TensorRT-LLM。工程挑战在延迟、吞吐和成本之间找到最优平衡。对应章节第六篇第 21-24 章。第六层应用层“再好的模型也需要好的工程才能变成好的产品。”核心任务基于模型 API 构建真实应用——聊天机器人、文档问答、代码助手、智能体系统。关键技术Prompt 工程提示词工程、RAG检索增强生成、Agent智能体、上下文工程Context Engineering、函数调用Function Calling。对应章节第八篇第 27-31 章。关键认知这六层不是孤立的。下层的决策会深刻影响上层的效果。比如数据质量差→模型能力差→应用效果差架构设计不考虑推理效率→部署成本过高。优秀的大模型工程师需要对全栈都有理解这也是本专栏的设计初衷。3.2 开源生态全景模型、数据、工具链的三维地图大模型的快速发展离不开开源社区。了解开源生态能帮你在实际项目中做出更好的技术选型。维度一开源模型截至 2025 年最重要的开源大语言模型家族模型系列开发者参数规模突出特点LLaMA 系列Meta1B-405B开源先驱生态最丰富Qwen 系列阿里0.5B-110B中英双语优秀多模态完善DeepSeek 系列DeepSeek1.5B-671BMoE 架构性价比极高开创 R1 推理范式Mistral/MixtralMistral AI7B-8x22B效率优先MoE 先行者GemmaGoogle2B-27B轻量高效适合端侧Yi零一万物6B-34B中文优化突出ChatGLM智谱 AI6B-130B国内最早开源之一InternLM上海AI Lab7B-20B工具调用能力强选型建议初学者先从Qwen2.5-0.5B/1.5B入手——体积小、效果好、中文一流想体验最强开源推理DeepSeek-R1需要英文为主LLaMA-3.1需要多模态Qwen2.5-VL或LLaVA维度二开源数据集数据集类型规模用途RedPajama-v2预训练语料30T Token从 CommonCrawl 清洗而来FineWeb预训练语料15T TokenHuggingFace 出品高质量英文The Stack v2代码语料67.5B Token多语言代码OpenHermesSFT 指令100 万条高质量指令微调数据UltraFeedbackRLHF 偏好6.4 万条DPO/RLHF 训练用MMLU评测基准14,000 题57 学科知识评测HumanEval评测基准164 题代码生成能力评测维度三工具链模型开发全链路工具 训练框架 │ 推理引擎 │ 应用框架 │ 评测工具 ─────────────┼────────────────┼─────────────────┼────────────── Megatron-LM │ vLLM │ LangChain │ lm-evaluation DeepSpeed │ SGLang │ LlamaIndex │ OpenCompass FSDP │ TensorRT-LLM │ Dify │ MMLU/GPQA Axolotl │ Ollama │ CrewAI/AutoGen │ HumanEval LLaMA-Factory │ llama.cpp │ Vercel AI SDK │ MT-Bench不需要全部记住。随着本专栏的推进我们会在对应章节中深入介绍每个工具。这里只是让你建立一个全局认知——大模型不是一个孤立的模型文件而是一整套工具生态。3.3 工程思维 vs. 学术思维为什么工程视角至关重要很多大模型教程是从学术论文的角度出发的。这没有错但工程实践中的关注点与学术研究有显著差异。两种思维的对比维度学术思维工程思维目标证明一个方法有效解决一个具体问题评价标准刷榜分数MMLU、HumanEval用户满意度、业务指标对成本的态度不太关心核心约束条件对延迟的态度可以等必须实时响应对数据的态度用公开数据集需要自己采集、清洗、标注模型选择用最大最好的用够用的、最划算的容错性允许偶尔出错必须有兜底策略关注时间线论文发表即完成上线后才是开始工程思维的四个核心原则原则一够用就好Good Enough不一定要用最大最强的模型。一个 7B 模型微调后在特定任务上可能比 70B 通用模型更好成本还低 10 倍。原则二成本意识Cost Awareness一个 API 调用 0.01 元看似很便宜日调用量 100 万次就是每天 1 万元。工程师必须时刻关注成本。常见的降本手段用小模型替代大模型处理简单任务缓存重复请求的结果用批处理替代实时处理量化模型减少推理成本原则三系统性思考Systems Thinking大模型不是单独存在的。在一个真实系统中它可能只占 30% 的处理逻辑用户请求 → 意图识别 → 检索系统(RAG) → 大模型推理 → 后处理 → 安全检查 → 返回结果每个环节的质量都影响最终效果。有时候改进检索系统比换一个更大的模型效果更好。原则四可观测性Observability线上系统必须可监控延迟分布、错误率、Token 使用量、用户反馈。没有数据就没有优化。本专栏的立场我们在每一章都会同时给出这个技术的学术原理是什么和工程中怎么用、怎么选、怎么避坑。理论和实践并重这就是工程思维。3.4 模型选型入门怎么选模型这是每个大模型从业者都会面对的第一个问题。我们给出一个实用的决策框架。决策一开源 vs. 闭源维度开源模型闭源模型API控制权完全自主依赖供应商数据隐私数据不出本地数据发送到第三方定制性可以微调、修改只能通过 Prompt 控制成本模式前期高GPU、后期低按调用付费最强模型不一定是最强的通常更强GPT-4o、Claude维护成本需要自己运维零运维经验法则原型验证阶段 → 先用闭源 API零成本启动快速验证想法产品上线后 → 根据数据敏感度、调用量、定制需求决定是否迁移到开源决策二API 调用 vs. 自部署调用量/月 ↑ 10M │ ████ 自部署更划算 │ ████ 1M │ ████ │ ▒▒▒▒ 取决于具体情况 100K │ ▒▒▒▒ │ ░░░░ API 更划算 10K │ ░░░░ └──────────────────→ 定制化需求 低 高API 的边际成本恒定每次调用都要钱自部署有固定成本GPU 租金但边际成本极低当调用量超过某个临界点时自部署更划算决策三大模型 vs. 小模型不是所有场景都需要大模型场景推荐理由开放域对话、复杂推理大模型70B需要广泛知识和复杂能力特定领域的分类、提取小模型1-7B微调任务明确微调后效果好、推理快简单规则判断不需要模型正则表达式/规则引擎更可靠Embedding/检索专用 Embedding 模型比通用 LLM 更高效一个实用的思路先用最强的闭源大模型建立效果上界然后尝试用更小的模型逼近这个上界。如果 7B 模型微调后能达到 95% 的效果且成本只有 5%那就用 7B。3.5 从预算到方案大模型项目的规划思路假设你拿到了一个在我们公司内部部署一个AI客服系统的任务怎么规划第一步明确需求功能回答用户关于产品的问题、处理简单投诉、转接人工性能响应时间 3 秒、准确率 90%约束用户数据不能出企业网络、月预算 5 万元第二步技术选型根据数据不出网络的约束排除闭源 API →必须自部署开源模型。根据预算估算可用的 GPU 资源月预算 5 万 → 可租约 4 张 A100 (80GB)4 张 A100 可流畅运行一个 70B 模型量化后第三步方案设计用户提问 → 意图分类小模型 → 检索知识库RAG → 生成回答Qwen2.5-72B ↓ 安全检查 → 返回用户 ↓不确定时 转接人工客服第四步迭代计划第1周搭建基础 RAG 系统用 Qwen2.5-7B 作为初始模型 第2周收集真实用户数据评估效果构建评测集 第3周升级到 72B 模型 / 收集数据做 SFT 微调 7B 模型 第4周部署优化量化、KV Cache 调优、安全测试 第5周持续收集反馈、迭代优化预算分配参考环节占比说明GPU 推理资源50-60%核心支出数据标注15-20%构建评测集和 SFT 数据工程开发15-20%系统搭建、接口开发评测与监控5-10%持续质量保障核心建议不要一上来就追求完美方案。先用最简单的方式跑通全链路哪怕效果一般然后用数据驱动迭代优化。这比花三个月设计一个完美架构要有效得多。3.6 本专栏的技术路线图后续九篇之间的关系与衔接到这里你已经具备了学习后续内容所需的所有基础知识。让我们鸟瞰一下全专栏的知识结构┌──────────────┐ │ 第一篇认知 │ ← 你在这里 ✓ │ (第1-3章) │ └──────┬───────┘ │ ┌───────────┼───────────┐ ↓ ↓ ↓ ┌────────┐ ┌─────────┐ ┌─────────┐ │第二篇 │ │第三篇 │ │ │ │架构篇 │ │数据篇 │ │ 可并行 │ │(4-8章) │ │(9-11章) │ │ 阅读 │ └───┬────┘ └────┬────┘ │ │ │ │ └─────────┘ └──────┬─────┘ ↓ ┌────────────┐ │ 第四篇训练 │ │ (12-16章) │ └──────┬─────┘ ↓ ┌─────────┴──────────┐ ↓ ↓ ┌──────────────┐ ┌──────────────┐ │第五篇对齐 │ │第六篇推理 │ │(17-20章) │ │与部署(21-24章)│ └──────┬───────┘ └──────┬───────┘ └───────┬───────────┘ ↓ ┌─────────┴──────────┐ ↓ ↓ ┌──────────────┐ ┌──────────────┐ │第七篇多模态 │ │第八篇应用 │ │(25-26章) │ │工程(27-31章) │ └──────┬───────┘ └──────┬───────┘ └───────┬───────────┘ ↓ ┌──────────────────┐ │第九篇质量与安全 │ │(32-34章) │ └────────┬─────────┘ ↓ ┌──────────────────┐ │第十篇实战篇 │ │(35-37章) │ └──────────────────┘五条推荐阅读路径根据你的角色和目标选择最适合你的阅读路径路径适合人群建议章节零基础入门无 AI 背景想系统学习按顺序读1→2→3→4→5→…全书应用开发者会写代码想做 AI 应用1→3→27→28→29→30→31→32算法工程师有 ML 背景想深入大模型3→4→5→6→7→12→13→17→18→21技术管理者需要做技术决策和规划1→3→12(Scaling Laws)→24→34→35全栈工程师想从数据到部署全掌握全书重点关注动手实验每一篇的核心问题篇回答的核心问题第二篇架构大模型内部长什么样第三篇数据训练数据从哪来、怎么处理第四篇训练怎样把数据变成模型第五篇对齐怎样让模型变好用第六篇推理怎样让模型跑得快、花钱少第七篇多模态怎样让模型看图、听声音第八篇应用怎样用模型做产品第九篇质量怎样保障效果和安全第十篇实战从零完整做一个项目是什么体验本章小结知识点关键收获六层技术栈数据→架构→训练→对齐→推理→应用上下层紧密关联开源生态LLaMA/Qwen/DeepSeek 三大家族 HuggingFace 工具链工程思维够用就好、成本意识、系统性思考、可观测性模型选型开源vs闭源、API vs自部署、大vs小按场景决策项目规划先跑通全链路再数据驱动迭代优化到此为止第一篇「认知篇」全部完成。你已经具备了以下基础对大模型有了直觉理解补齐了深度学习最小必要知识掌握了大模型技术的全局视图建立了工程思维下一篇预告第二篇「架构篇」将深入大模型的内核。我们从 Tokenizer 开始逐层拆解 Transformer 的每一个组件一直讲到 MoE 和非 Transformer 架构。这是全书技术含量最高的一篇准备好了吗