P2000 5GB 跑 35B MoE 模型：从 12 t/s 到 18 t/s 的调优实录

张

张建站

2026/6/1 15:35:45

10分钟阅读

P2000 5GB 跑 35B MoE 模型：从 12 t/s 到 18 t/s 的调优实录

在上篇《P2000 5G 老显卡跑 35B 大模型从“鸡肋”到“真香”》里我分享了怎么用 MoE 模型让这张仅 5GB 显存的 Quadro P2000 起死回生。当时最高跑到 11.88 t/s我已经觉得很魔幻了。但用过几天后总感觉还有余地。我们在P104上又提升了50%那现在就该拿着同样的方法回到 P2000 上实打实地把隐藏的性能一口一口啃出来。这篇文章没有高深理论只有一连串的 llama-bench 命令、跳动的数字以及数字背后那个越来越清晰的“显存天花板”。一、调优三板斧快速热一下身经过不断的学习我们已经知道 MoE 模型每一层都有轻巧的“共享注意力”和臃肿的“MoE 专家”两个模块。调优的核心就是把每层必跑的注意力塞进 GPU把占地方的专家选择性挪到 CPU 内存。落实到参数就三个关键旋钮-ngl控制多少层整体进 GPU。越大越快但显存也越紧张。--n-cpu-moe精准卸载前 N 层的 MoE 专家只挪专家不挪注意力。这就是“体内手术刀”。-ctk / -ctvKV 缓存量化。我已经固定在 q8_0省一半缓存质量几乎无损。好工具明白了开干。二、第一轮——基线扫描红线在哪先把 -ngl 设在 6、8、12 三档配合 --n-cpu-moe 从 25 到 36用 llama-bench 各跑一遍。主要看两个指标pp512处理 512 token 提示的速度和 tg128生成 128 token 的速度体感流畅度的命门。第一批数据里有一组让我后背一凉ngl12, n-cpu-moe25, t8: pp512 21.16 t/s ngl12, n-cpu-moe30, t8: pp512 180–200 t/s正常25 那组提示处理速度从正常的 200 左右断崖式跌到 21。没有 OOM 报错没有崩溃就是数字直接跪了。这就是 P2000 的“血压计”——当显存被塞满GPU 开始用系统内存做交换性能血崩。第一条红线划出来了--n-cpu-moe绝对不能小于 30。在 30 到 36 这个区间tg128 也找到了小惊喜ngl12, n-cpu-moe34, t8 能跑到 12.78 t/s比上篇的最好成绩又翘了一点尾巴。三、第二至四轮——逐级压榨撞上天花板既然 12 层稳住了那就往上加。第二轮把 -ngl 提到 16重点测试 n-cpu-moe 在 30–36 之间。惊喜来得很快ngl16, n-cpu-moe30, t8: pp512200.73, tg12814.52 t/s14.52 t/s相比第一轮的最佳 12.78 又跳升 13%。可一旦尝试 n-cpu-moe24pp512 立刻跌到 18.31红线再次应验。此时显存已经极度饱和只是因为测试序列短才勉强没崩。第三轮胆子再大一点直接 -ngl 999能塞进 GPU 的层全进。但必须配合足够大的 --n-cpu-moe否则专家会把 5GB 挤爆。测试结果很干脆ngl999, n-cpu-moe36, t8: pp512189.95, tg12818.28 t/s ngl999, n-cpu-moe32, t8: pp512200.29, tg12818.06 t/s ngl999, n-cpu-moe30, t8: pp51219.78, tg12810.63血崩18.28 t/s这个数字让 P2000 彻底翻身。但 n-cpu-moe30 那组恐怖的滑坡再次告诉我们——5GB 显存连 30 层专家都兜不住必须卸够 36 层。这也解释了为何 n-cpu-moe32 性能与 36 持平多留在 GPU 的那 4 层专家通道已被内存交换卡死加量不加价。第四轮我试探性地把 n-cpu-moe 降到更低的 24……程序直接退出。不是 OOM是连报错的机会都没有就闪退了。P2000 的绝对底线就这么硬邦邦地立在 36 上。四、从探险中捡到的三个“锦囊”折腾完这几轮有些经验已经刻进肌肉记忆里以后调任何老卡都能直接用。1. pp512 暴跌是 OOM 的“烟警报”别等红色错误。一旦 pp512 从几百突然掉到几十甚至更低就是显存在做内存交换。这个信号比崩溃早一步足够你及时止损。2. 二分法找 --n-cpu-moe 甜点最高效先找一个肯定能跑的保守值比如 36再找一个必崩的激进值比如 24在中间来回二分两三轮就能锁定最优解。千万别从头开始线性扫描。3. 线程数不是越多越好CPU 内存带宽是隐形瓶颈所有测试中-t 8 始终优于 -t 12。原因很简单MoE 卸载模式下CPU 要频繁把专家权重从内存往 GPU 喂内存带宽是固定的太多线程反而堵车。记住老平台从 8 线程开始试。五、P2000 的最终答案在这张 5GB 的 Quadro P2000 上跑 Qwen3.6-35B-A3B 以及略小一点的Qwen3.6-28B-A3B 的终极配置是-ngl 999 --n-cpu-moe 36 -t 8 -ctk q8_0 -ctv q8_0 -c 65536性能分别稳定在18.52 tps和18.28 pps提示处理分别是近180t/s和190 t/s。从最初的 12 到如今的 18每一步都有数据可查每一次调参都是向物理定律的一次试探。

抖音批量下载技术方案：douyin-downloader开源工具深度解析

抖音批量下载技术方案：douyin-downloader开源工具深度解析【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback s…...

2026/6/1 15:35:43 阅读更多 →

MATLAB实战资源：遗传算法自动调参RBF神经网络，附预测代码与操作录像

本文还有配套的精品资源，点击获取简介：直接上手就能跑的RBF神经网络预测方案，用遗传算法（GA）全自动优化RBF中心位置、基宽和输出层权值，解决手动调参难、泛化差的问题。包里有两个核心脚本：…...

2026/6/1 15:35:41 阅读更多 →

基于Arduino与PIR传感器的智能互动装置改造实战

1. 项目概述：从商店道具到智能互动装置的蜕变每年万圣节，家门口的装饰总是邻里间暗自较劲的焦点。几年前，我在一家万圣节主题商店的角落里发现了一只“故障”的机械龙道具，它静静地躺在那里，头歪向一边，翅膀…...

2026/6/1 15:35:22 阅读更多 →

Windows防撤回终极指南：如何永久保存微信QQ撤回消息

Windows防撤回终极指南：如何永久保存微信QQ撤回消息【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…...

2026/6/1 2:02:21 阅读更多 →

终极视频下载解决方案：VideoDownloadHelper 完全指南

终极视频下载解决方案：VideoDownloadHelper 完全指南【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网络上的精彩…...

2026/6/1 16:51:08 阅读更多 →

小微企业合作网络与成长预测解析方案【附代码】

✨ 长期致力于小微企业、合作网络、网络结构、企业成长、成长预测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于提名生成法的合作网络构建与结构…...

2026/6/1 16:51:08 阅读更多 →

终极键盘映射工具：如何免费解决游戏按键冲突问题

终极键盘映射工具：如何免费解决游戏按键冲突问题【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾在激烈的游戏中因为同时按下左右方向键而让角色卡顿不前？是否在关键时刻因为按键…...

2026/6/1 5:51:17 阅读更多 →