大模型推理受到内存带宽的限制吗大模型推理确实会受到内存带宽的严重限制这在业界被称为“内存墙”Memory Wall。不过这种限制并不是贯穿推理的全过程而是主要集中在生成文本的阶段Decode 阶段。我们可以把大模型的推理过程拆解为两个阶段来看1. 读题阶段Prefill 阶段受限于计算能力当你向大模型输入一大段提示词Prompt时模型需要并行地处理这些输入内容。特点这是一个高度并行的计算过程模型需要执行海量的矩阵乘法运算。瓶颈此时 GPU 的计算单元如 Tensor Core通常处于满负荷运转状态算力被完全压榨。因此这个阶段是计算受限Compute-bound的瓶颈在于芯片的计算速度而不是内存带宽。2. 答题阶段Decode 阶段严重受限于内存带宽当模型开始逐个字Token生成回复时情况就完全变了。特点这是一个自回归的过程生成每一个新字GPU都需要把之前所有输入和已生成内容的“记忆”即 KV Cache从显存中读取出来参与计算。瓶颈每生成一个字计算量其实很小类似于矩阵与向量相乘但需要搬运的数据量却非常庞大。这就好比一位世界顶级的厨师计算单元切菜速度极快但食材运输员内存带宽每秒只能从冷库里搬出一点点原料。厨师大部分时间都在“等米下锅”处于闲置状态。因此这个阶段是典型的内存带宽受限Memory-bound。为什么内存带宽会成为核心瓶颈算力与带宽增长失衡在过去十年里AI 芯片的计算能力增长了约 80 倍但内存带宽仅增长了约 17 倍。计算速度远远跑在了数据搬运速度的前面。KV Cache 的累积随着对话的进行需要反复读取的 KV Cache 体积会越来越大对显存带宽的压力也随之飙升。这对我们有什么直观影响当你发现大模型在刚开始回复时很快Prefill 阶段计算快但后续文字生成的节奏变得拖沓、卡顿或者在长文本对话中响应越来越慢时这通常不是因为算力不够而是被内存带宽卡住了脖子。为了应对这个问题目前业界也在通过提升硬件带宽如采用 HBM 高带宽内存、优化 KV Cache 管理、模型量化减少数据搬运量以及存内计算PIM等架构创新来试图打破这堵“内存墙”。模型全部加载到显存中还受带宽限制吗依然会受到带宽的限制。“模型全部加载到显存中”解决的是显存容量VRAM Capacity的问题但这和显存带宽VRAM Bandwidth完全是两回事。我们可以通过一个非常直观的类比来理解显存容量好比是厨房的大小决定了你能在厨房里存放多少食材模型参数。显存带宽好比是冰箱到灶台的传送带速度决定了你每秒钟能从冰箱里拿出多少食材下锅。即使你的厨房显存足够大把所有食材模型都装进去了但如果传送带带宽的速度很慢世界顶级的厨师GPU计算单元依然只能站在灶台前干等食材送过来。为什么模型在显存里了还需要极高的带宽在大模型逐字生成回复Decode 阶段时模型需要每一次都从显存中把庞大的参数和之前积累的“记忆”KV Cache读取到计算核心中进行运算生成完一个字后再把这些数据写回显存。这个过程是极其高频的。举个具体的例子假设一个 10 亿参数1B的模型在不压缩的情况下大约占用 2GB 显存。如果模型每秒需要推理生成 1000 个字就意味着这 2GB 的数据每秒钟要在显存和计算单元之间完整地搬运 1000 次理论上这就需要2000GB/s的显存带宽。目前顶级的消费级显卡如 RTX 5090显存带宽也只有 1700GB/s 左右而普通电脑的系统内存DDR5带宽通常只有 100GB/s 上下。所以哪怕显存完全装得下模型一旦带宽跟不上计算单元就会处于“算力闲置”状态也就是我们常说的“内存墙”瓶颈。这也是为什么在本地跑大模型时一张二手的 RTX 3090拥有 936GB/s 的高带宽生成文字的速度会比用最新款 CPU 配合大容量系统内存仅有约 96GB/s 带宽快上十几倍的原因。TPS一般是多少TPSTokens Per Second并没有一个固定的标准值它完全取决于模型大小、硬件配置和并发量。简单来说TPS 指的是大模型每秒能生成多少个字Token。结合你提供的书本内容和实际应用场景我们可以把 TPS 分为两个维度来看服务端吞吐量这是书本中主要讨论的场景例如每秒处理 10 个请求。定义整个系统每秒钟能向所有用户总共输出多少个字。典型数值1单张高端显卡如 A100/H100运行一个 70B700亿参数的大模型通过量化和优化技术TPS 可能在100 到 500之间。2集群如果是大型推理集群TPS 可以达到数万甚至数十万。书本中的例子书中提到“芯片制造商宣称的峰值 FLOP/s 下芯片的吞吐量为 100 TPS但在实际推理服务中只能达到 20 TPS”。这只是一个用于解释 MFU模型算力利用率的假设性数字意在说明理论值和实际值的巨大差距。单用户生成速度这是你在本地或网页上直接感受到的速度。定义模型每秒钟为你一个人生成多少个字。典型数值1人类阅读速度大约是5-10 Token/s中文语境下约等于 5-10 个汉字。2流畅体验通常需要达到20-30 Token/s以上你会感觉文字是“刷刷”出来的几乎没有等待感。3本地运行在高端显卡如 RTX 4090上运行 7B 模型可以达到100-200 Token/s非常快。在普通电脑或 Mac 上运行 70B 模型可能只有5-15 Token/s勉强够用。总结TPS 到底多少算好及格线TPS 10能跟上人类阅读速度不觉得卡。优秀线TPS 50几乎是瞬间生成大段文字。工业级目标追求极高的 TPS如 1000是为了同时服务成千上万的用户降低单次推理的成本。