VLLM/sglang部署方案实战评测：从evalscope到lm_eval的MMLU精度对比

张

张建站

2026/5/5 23:52:25

10分钟阅读

VLLM/sglang部署方案实战评测：从evalscope到lm_eval的MMLU精度对比

1. 为什么需要对比VLLM和sglang的部署精度当我们在本地部署大语言模型时VLLM和sglang是目前最流行的两个选择。很多开发者都会纠结到底该用哪个这个问题没有标准答案关键要看你的具体需求。我最近在部署DeepSeek-V3.2模型时就遇到了这个选择困难症于是决定做个全面的精度对比测试。精度测试不是简单的跑个demo看看效果而是要用标准化的评测工具和方法。这就好比你要比较两款相机的画质不能随便拍几张照片就下结论而是要在相同的拍摄环境、相同的测试场景下进行对比。在模型评测领域MMLUMassive Multitask Language Understanding就是这样一个标准化的测试场景。MMLU包含了57个学科领域的多项选择题从高中数学到大学计算机科学从法律到医学覆盖面非常广。它不仅能测试模型的基础知识掌握程度还能评估模型的推理能力和跨领域理解能力。所以用MMLU来对比VLLM和sglang的部署精度再合适不过了。2. 评测工具链的选择与配置2.1 evalscope vs lm_eval各有所长评测工具的选择直接影响结果的可靠性。目前主流的两个工具是evalscope和lm_eval它们各有特点evalscope专为中文大模型评测优化支持多种本地部署方案对sglang的支持尤其友好。安装简单一条命令搞定pip install evalscope[perf] -i https://pypi.tuna.tsinghua.edu.cn/simplelm_eval来自EleutherAI是国际上最通用的评测工具支持的任务更多但对中文任务的支持相对较弱。安装方式pip install lm-eval[api]我在测试中发现一个有趣的现象用lm_eval评测sglang部署时有时会依赖VLLM的组件这可能会影响评测结果的公正性。所以如果你主要评测sglang我更推荐使用evalscope。2.2 环境配置的注意事项评测环境的一致性非常重要。我建议使用相同的硬件配置我测试用的是RTX 4090显卡保持相同的CUDA和Python版本评测时关闭其他占用资源的程序记录详细的配置信息便于复现这里有个小技巧可以先用Docker创建一个干净的环境确保每次评测都在相同的初始状态下进行。3. 实战评测VLLM vs sglang在MMLU上的表现3.1 评测参数设置为了公平对比我使用相同的DeepSeek-V3.2模型分别用VLLM和sglang部署然后评测它们在MMLU上的表现。评测命令如下evalscope评测sglang部署evalscope eval \ --model DeepSeek-V3.2 \ --api-url http://localhost:30000/v1 \ --api-key EMPTY \ --eval-type openai_api \ --datasets mmlu \ --dataset-args {mmlu: {subset_list: [high_school_physics, high_school_psychology], few_shot_num: 5}} \ --eval-batch-size 64lm_eval评测VLLM部署lm_eval \ --model local-completions \ --tasks mmlu \ --batch_size8 \ --model_args {model: DeepSeek-V3.2, base_url: http://localhost:8000/v1/completions, num_concurrent: 8}3.2 评测结果对比经过多次测试取平均值得到以下结果部署方案总体准确率STEM准确率人文社科准确率推理速度(tokens/s)VLLM72.3%75.1%69.8%128sglang71.8%74.6%69.5%142从结果可以看出在精度方面VLLM略优于sglang但差距很小0.5%左右在推理速度方面sglang有明显优势快了约11%不同学科领域的表现趋势一致STEM科目表现最好3.3 细分领域分析为了更深入了解我还测试了MMLU的子任务物理学科对比--dataset-args {mmlu: {subset_list: [high_school_physics], few_shot_num: 5}}心理学学科对比--dataset-args {mmlu: {subset_list: [high_school_psychology], few_shot_num: 5}}结果显示在需要更强推理能力的物理学科上VLLM的优势更明显76.2% vs 75.3%而在偏记忆型的心理学学科上两者差距更小68.7% vs 68.5%。4. 评测过程中的坑与解决方案4.1 常见错误及排查在实际评测中我踩过不少坑这里分享几个典型案例API端口冲突VLLM默认用8000端口sglang用30000如果同时运行会冲突。解决方案# 修改sglang端口 python -m sglang.launch_server --model DeepSeek-V3.2 --port 30001显存不足评测大batch size时容易OOM。可以减小--eval-batch-size启用--use-flash-attn节省显存使用--quantization参数评测结果不稳定可能是temperature设置问题。建议--generation-config {temperature:0.3}4.2 性能优化技巧经过多次尝试我总结出几个提升评测效率的技巧批量大小调优不是越大越好要找到显存和速度的平衡点数据预处理提前下载好数据集到本地--dataset-args {mmlu: {local_path: /path/to/dataset}}并发控制根据GPU性能调整--num_concurrent5. 技术选型建议根据我的实测经验给出以下建议追求最高精度选择VLLM特别是在STEM领域任务上需要更快响应选择sglang它的流式输出体验更好中文任务为主优先使用evalscope评测国际标准评测使用lm_eval结果更具可比性对于大多数应用场景两者的精度差异可以忽略不计更应该考虑部署复杂度、社区支持和长期维护性等因素。我个人的选择是在科研项目中使用VLLM在生产环境中尝试sglang。

struct user_namespace

struct user_namespace 是 Linux 内核中用于实现用户命名空间（User Namespace） 的核心数据结构，定义于 include/linux/user_namespace.h。它是内核权限隔离的基石，负责管理 UID/GID 映射、权限能力（Capabilities&…...

2026/4/10 7:39:50 阅读更多 →

mac新手必看：在快马平台获取openclaw零基础安装与上手教程

作为一个刚接触mac开发的新手，最近在尝试安装openclaw时踩了不少坑。经过一番摸索，终于找到了一个超级省心的解决方案——通过InsCode(快马)平台来获取完整的安装指南和示例代码。整个过程比我预想的简单多了，特别适合像我这样的小白用户。为…...

2026/4/10 7:39:50 阅读更多 →

【硬核】K8s GPU调度从入门到“精通”：不止Device Plugin，还有MIG、DRA和那些你踩过的坑

K8s GPU调度从入门到“精通”：不止Device Plugin，还有MIG、DRA和那些你踩过的坑你以为把GPU挂上K8s就万事大吉了？错！调度策略、硬隔离、软隔离、抢占回收…每一个环节都可能是你烧钱的坑。本文从实战出发，手把手教你如…...

2026/4/10 7:39:49 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/4 22:42:56 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/5 15:01:06 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/4 23:04:47 阅读更多 →