从健康码崩溃到秒杀系统：QPS、TPS、RT这些指标到底怎么用？

张

张建站

2026/5/1 17:06:42

10分钟阅读

从健康码崩溃到秒杀系统QPS、TPS、RT这些指标到底怎么用去年双十一零点刚过某电商平台的秒杀系统突然出现大面积卡顿。技术团队紧急扩容服务器后系统反而彻底崩溃。事后复盘发现问题出在团队盲目增加了线程池数量导致数据库连接耗尽——这恰恰是只关注QPS数值却忽视RT和TPS联动的典型反例。当我们在讨论系统性能时QPS、TPS、RT这些指标就像汽车的转速表、时速表和油耗计。单独看某个数值毫无意义关键是要理解它们之间的动态关系。本文将用三个真实场景带你掌握这些指标的实战用法。1. 指标的本质不只是数字游戏1.1 QPS的隐藏陷阱某省健康码系统在全员核酸检测时崩溃当时监控显示QPS仅为设计容量的60%。深入分析日志发现虚假QPS健康状态查询接口实际由5个微服务组成调用链真实情况# 表面QPS 前端请求 - 网关层 : 2000 QPS # 实际下游调用网关 - 身份服务 : 2000 QPS 网关 - 核酸服务 : 2000 QPS 网关 - 行程服务 : 2000 QPS这揭示了一个关键认知QPS需要区分入口调用和内部调用。我们常用压测工具得出的QPS值往往只是系统最外层的表面温度。1.2 TPS的业务权重某金融系统在促销活动时出现异常TPS达标但实际成交率暴跌。根本原因是指标类型正常情况异常情况订单创建TPS15001500风控检查TPS1500300支付回调TPS15001200提示真正的系统容量取决于最慢子系统的TPS就像木桶的短板效应1.3 RT的百分位思维某视频平台发现虽然平均RT保持在200ms但用户投诉仍然不断。通过P99指标分析发现平均RT200msP90 RT350msP99 RT2100ms关键结论系统体验由最慢的那1%请求决定。我们建议采用如下监控策略设置P50 RT基线告警P90 RT超过基线2倍时触发预警P99 RT持续超标时立即扩容2. 容量规划实战从公式到落地2.1 电商秒杀场景拆解假设准备618大促预期峰值流量为10万QPS。传统计算公式所需机器数总QPS / 单机QPS但实际需要考虑以下因素流量突增系数通常取2-3倍冗余系数建议30%部署单元化避免单机房故障更科学的计算公式def calculate_machine(total_qps, single_qps): burst_factor 2.5 # 流量突增系数 redundancy 1.3 # 冗余系数 return math.ceil((total_qps * burst_factor) / single_qps * redundancy)2.2 数据库连接池配置某社交平台在明星官宣时崩溃根源是数据库连接池配置不当参数初始值优化值原理说明maxActive200800匹配应用线程池大小maxWait5000ms300ms快速失败避免雪崩minIdle1050预热连接减少RT波动注意连接数不是越大越好需匹配后端数据库处理能力3. 性能瓶颈定位指标联动的艺术3.1 黄金三角关系通过某物流系统真实案例我们发现QPS、TPS、RT存在动态平衡健康状态QPS ↑ → TPS ↑ (线性增长)RT 保持稳定临界状态QPS ↑ → TPS →RT 开始波动崩溃前兆QPS ↑ → TPS ↓RT 急剧上升3.2 线程池优化实战某支付网关通过调整线程池参数提升性能// 错误配置 ThreadPoolExecutor( corePoolSize 100, maxPoolSize 500, queueCapacity Integer.MAX_VALUE ) // 优化配置 ThreadPoolExecutor( corePoolSize 50, maxPoolSize 200, queueCapacity 1000, rejectionPolicy CallerRunsPolicy() )优化效果对比指标优化前优化后最大QPS1200015000P99 RT2.1s800ms错误率1.2%0.05%4. 应急预案设计指标驱动的弹性策略4.1 分级降级方案某票务系统采用三级降级策略一级降级QPS达到阈值80%关闭推荐算法简化页面静态资源二级降级RT超过500ms启用缓存数据关闭非核心校验三级降级错误率5%开启排队系统切换备用支付通道4.2 弹性扩缩容策略基于指标变化的扩缩容决策矩阵QPS变化RT变化TPS变化决策动作↑↑↑→↑提前预热备用集群↑↑↑→立即扩容限流↓↓↓→↓缩容资源回收→↑↑↑↓↓紧急回滚故障转移在实际运维中我们发现最有效的监控看板应该包含这些核心指标实时流量面板入口QPS、各服务TPS健康度雷达图P50/P90/P99 RT资源水位图CPU/内存/连接池使用率业务指标转化率、错误码分布

SAP利润中心期间失效对业务的影响：物料过账、WBS元素和资产关联全解析

SAP利润中心期间失效对业务的影响：物料过账、WBS元素和资产关联全解析在SAP系统中，利润中心作为重要的管理会计单元，其期间设置直接影响着多个核心业务流程的顺畅运行。当利润中心期间失效时，往往会在物料凭证过账、WBS元素入账和…...

2026/4/14 17:32:46 阅读更多 →

LibreCAD完全指南：零成本实现专业级2D设计的开源解决方案

LibreCAD完全指南：零成本实现专业级2D设计的开源解决方案【免费下载链接】LibreCAD LibreCAD is a cross-platform 2D CAD program written in C17. It can read DXF/DWG files and can write DXF/PDF/SVG files. It supports point/line/circle/ellipse/parabola/…...

2026/4/12 13:08:37 阅读更多 →

OpenClaw与gemma-3-12b-it联动：低成本打造个人AI助手全攻略

OpenClaw与gemma-3-12b-it联动：低成本打造个人AI助手全攻略 1. 为什么选择OpenClawgemma-3-12b-it组合去年夏天，当我第一次尝试用AI自动化处理日常工作时，发现大多数方案要么需要将敏感数据上传到云端，要么功能过于局限。直到遇…...

2026/4/12 9:22:46 阅读更多 →

保姆级避坑指南：用MIM搞定MMSegmentation 2.0.0安装，告别版本兼容性报错

深度学习语义分割实战：MMSegmentation 2.0极简安装与避坑手册在计算机视觉领域，语义分割技术正以惊人的速度重塑着医疗影像分析、自动驾驶和工业质检等场景的应用边界。作为OpenMMLab生态中的重要成员，MMSegmentation 2.0凭借其模块化设计和…...

2026/5/1 9:41:22 阅读更多 →

Chrome-GPT：将大语言模型深度集成到浏览器的开发实践

1. 项目概述：当浏览器插件遇上大语言模型最近在折腾一个挺有意思的开源项目，叫“Chrome-GPT”。光看名字，你大概就能猜到它的核心玩法：把当下最火的大语言模型（LLM）能力，直接集成到我们每天都要…...

2026/4/30 20:59:21 阅读更多 →

别再用Node.js写MCP网关了！C++ 2024性能基准测试：相同硬件下吞吐量超Go 3.8倍，延迟降低62%

更多请点击： https://intelliparadigm.com 第一章：MCP协议核心原理与C网关设计全景概览 MCP（Modular Communication Protocol）是一种面向微服务间低延迟、高可靠通信的二进制协议，其核心在于“模块化帧结构”与“状态…...

2026/4/29 19:30:45 阅读更多 →

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化【免费下载链接】Newtonsoft.Json Json.NET is a popular high-performance JSON framework for .NET 项目地址: https://gitcode.com/gh_mirrors/ne/Newtonsoft.Json Newtonsoft.Json&#xff08…...

2026/4/30 13:39:56 阅读更多 →