云原生技术11-从0到1搭建生产级Prometheus监控：云原生监控的“瑞士军刀“，但你真的会用吗？

张

张建站

2026/6/11 14:47:55

10分钟阅读

云原生技术11-从0到1搭建生产级Prometheus监控：云原生监控的“瑞士军刀“，但你真的会用吗？

「知识图谱生成工具」一键将文件夹内容变身为交互式知识图谱的免安装桌面工具文末附免费下载链接-CSDN博客AI面试高频问题及原理01- 搞不清AI Agent和LLM的区别3分钟让你彻底明白-CSDN博客程序员生存指南04-为什么AI能写70%的代码但取代不了你2026年程序员核心价值转变不是写代码而是设计系统-CSDN博客目录一、开篇那些年我们踩过的监控坑二、Prometheus架构Pull模式的前世今生三、核心组件四大金刚各显神通四、服务发现让监控自动长眼睛五、告警规则从狼来了到精准打击六、性能优化别让监控成为被监控的对象七、文末三件套一、开篇那些年我们踩过的监控坑你是否遇到过这样的窘境服务器挂了才发现用户比监控先知道应用慢得像蜗牛日志翻了几百页找不到原因监控告警一堆但不知道哪个是真的有问题如果你的答案是是恭喜你你已经体验过传统监控的酸爽了。Prometheus这个从SoundCloud走出来的开源项目如今已成为云原生时代的监控标配。它不仅是CNCF的毕业项目更是Kubernetes生态的事实标准。本文将带你从零搭建生产级监控体系避开那些我踩过的坑。效率技巧Prometheus单实例可支持百万级时间序列抓取间隔默认15秒可配置存储压缩比高达1:15。这意味着你用一台普通服务器就能监控整个集群。二、Prometheus架构Pull模式的前世今生2.1 架构全景图先来看一张ASCII架构图帮你建立整体认知┌─────────────────────────────────────────────────────────────────┐ │ Prometheus 监控体系 │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ HTTP Pull ┌──────────────────┐ │ │ │ Exporters │◄────────────────────│ │ │ │ │ (Node/Black │ │ Prometheus │ │ │ │ box/MySQL) │ │ Server │ │ │ └──────────────┘ │ ┌────────────┐ │ │ │ ▲ │ │ TSDB │ │ │ │ │ │ │ (时序数据库) │ │ │ │ ┌──────┴──────┐ │ └────────────┘ │ │ │ │ Target │ │ ┌────────────┐ │ │ │ │ (被监控端) │ │ │ PromQL │ │ │ │ └─────────────┘ │ │ 查询引擎 │ │ │ │ │ └────────────┘ │ │ │ ┌──────────────┐ Push (短任务) │ │ │ │ │ Pushgateway │────────────────────►│ │ │ │ └──────────────┘ └────────┬─────────┘ │ │ │ │ │ │ Alert │ │ ▼ │ │ ┌──────────────────┐ │ │ │ Alertmanager │ │ │ │ ┌────────────┐ │ │ │ │ │ 分组/抑制 │ │ │ │ │ │ 静默/路由 │ │ │ │ │ └────────────┘ │ │ │ └────────┬─────────┘ │ │ │ │ │ ▼ │ │ ┌──────────────────┐ │ │ │ Email/钉钉/微信 │ │ │ │ PagerDuty/Slack │ │ │ └──────────────────┘ │ │ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ 服务发现 (Service Discovery) │ │ │ │ Kubernetes SD │ Consul SD │ File SD │ DNS SD │ EC2 SD │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────┘2.2 Pull vs Push一场圣战Prometheus采用Pull模式拉取而传统监控如Zabbix多采用Push模式推送。这两者有什么区别特性Pull模式 (Prometheus)Push模式 (Zabbix)控制权服务端决定何时拉取客户端主动推送防火墙服务端 outbound 即可客户端需 inbound短任务需要Pushgateway辅助天然支持网络分区能区分挂掉和不可达难以区分扩展性水平扩展友好服务端压力大⚠️避坑警告很多人一开始不理解Pull模式的优势觉得主动推送更实时。实际上Pull模式让你能精确控制抓取频率且在网络分区时Prometheus能区分是目标挂了还是网络不通——这在Push模式下几乎不可能做到。2.3 TSDB专为监控而生的时序数据库Prometheus内置的时序数据库TSDB有几个核心设计垂直写水平读按时间顺序追加写入查询时按时间范围扫描标签索引基于倒排索引的标签查询支持高基数维度块存储数据按2小时分块旧数据自动压缩内存映射热数据在内存冷数据落盘# prometheus.yml 核心配置 storage: tsdb: retention.time: 15d # 数据保留15天 retention.size: 50GB # 或按大小限制 min-block-duration: 2h # 最小块时长 max-block-duration: 2h # 最大块时长效率技巧存储压缩比约1:15意味着100GB原始数据只需要约7GB磁盘空间。这比传统关系型数据库节省90%以上的存储成本。2.4 PromQL监控界的SQLPromQLPrometheus Query Language是Prometheus的查询语言强大到让人上瘾。# 查询CPU使用率 100 - (avg by(instance) (irate(node_cpu_seconds_total{modeidle}[5m])) * 100) # 查询内存使用率 100 * (1 - ((node_memory_MemAvailable_bytes or node_memory_MemFree_bytes) / node_memory_MemTotal_bytes)) # 查询磁盘即将写满的实例预测4小时内会满 predict_linear(node_filesystem_avail_bytes{mountpoint/}[1h], 4 * 3600) 0 # 查询QPS rate(http_requests_total[5m]) # 查询P99延迟 histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m]))效率技巧irate比rate更适合监控因为它只使用最后两个数据点对峰值更敏感。但注意irate在数据稀疏时可能产生尖峰需要配合告警规则谨慎使用。三、核心组件四大金刚各显神通3.1 Prometheus Server大脑中枢Prometheus Server负责抓取指标、存储数据、执行查询。部署非常简单# docker-compose.yml version: 3 services: prometheus: image: prom/prometheus:v2.47.0 container_name: prometheus ports: - 9090:9090 volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml - prometheus-data:/prometheus command: - --config.file/etc/prometheus/prometheus.yml - --storage.tsdb.path/prometheus - --storage.tsdb.retention.time15d - --web.enable-lifecycle # 支持热重载配置 restart: unless-stopped volumes: prometheus-data:# prometheus.yml 基础配置 global: scrape_interval: 15s # 默认抓取间隔 evaluation_interval: 15s # 告警规则评估间隔 alerting: alertmanagers: - static_configs: - targets: [alertmanager:9093] rule_files: - /etc/prometheus/rules/*.yml scrape_configs: # 监控Prometheus自身 - job_name: prometheus static_configs: - targets: [localhost:9090] # 监控Node Exporter - job_name: node-exporter static_configs: - targets: [node-exporter:9100] relabel_configs: - source_labels: [__address__] target_label: instance⚠️避坑警告生产环境一定要开启--web.enable-lifecycle这样你可以通过curl -X POST http://localhost:9090/-/reload热重载配置而不需要重启服务。别问我怎么知道的重启丢数据的痛你不懂。3.2 Exporter数据搬运工Exporter负责将各种系统的指标转换为Prometheus格式。常用的有Exporter用途端口node_exporter主机指标CPU/内存/磁盘/网络9100blackbox_exporter黑盒探测HTTP/TCP/ICMP/DNS9115mysqld_exporterMySQL数据库指标9104redis_exporterRedis指标9121kafka_exporterKafka指标9308elasticsearch_exporterES指标9114# node_exporter docker-compose node-exporter: image: prom/node-exporter:v1.6.1 container_name: node-exporter volumes: - /proc:/host/proc:ro - /sys:/host/sys:ro - /:/rootfs:ro command: - --path.procfs/host/proc - --path.sysfs/host/sys - --path.rootfs/rootfs - --collector.filesystem.ignored-mount-points^/(sys|proc|dev|host|etc)($$|/) ports: - 9100:9100 restart: unless-stopped效率技巧node_exporter默认启用所有collector但很多你用不上。可以通过--no-collector.xxx禁用不需要的collector减少资源消耗。比如--no-collector.wifi --no-collector.hwmon。3.3 Pushgateway短任务的救星Prometheus是Pull模式但批处理任务、定时任务跑完就结束怎么监控Pushgateway来解决# 在批处理脚本中推送指标 echo # HELP batch_job_last_success Unix timestamp of last success echo # TYPE batch_job_last_success gauge echo batch_job_last_success{job\data-clean\,instance\batch-server\} $(date %s) \ | curl --data-binary - http://pushgateway:9091/metrics/job/data-clean/instance/batch-server# Python示例使用prometheus_client库 from prometheus_client import CollectorRegistry, Gauge, push_to_gateway registry CollectorRegistry() g Gauge(batch_job_records_processed, Records processed, registryregistry) g.set(42) push_to_gateway(pushgateway:9091, jobdata-clean, registryregistry)⚠️避坑警告Pushgateway不是用来做实时推送的它只应该用于短任务指标。如果你把所有指标都推到Pushgateway就失去了Prometheus Pull模式的优势而且Pushgateway会成为单点瓶颈。记住能用Pull就别用Push。3.4 Alertmanager告警的守门员Alertmanager负责告警的分组、抑制、静默和路由。没有它你的告警会像洪水一样淹没值班同学。# alertmanager.yml global: smtp_smarthost: smtp.example.com:587 smtp_from: alertexample.com smtp_auth_username: alertexample.com smtp_auth_password: your-password templates: - /etc/alertmanager/templates/*.tmpl route: group_by: [alertname, cluster, service] group_wait: 30s # 初次告警等待时间 group_interval: 5m # 同一组告警间隔 repeat_interval: 4h # 重复告警间隔 receiver: default routes: # 严重告警立即通知 - match: severity: critical receiver: pagerduty-critical continue: true # 磁盘告警单独分组 - match: alertname: DiskSpaceWarning group_by: [instance, mountpoint] receiver: email-ops inhibit_rules: # 如果服务宕机抑制该服务的其他告警 - source_match: severity: critical target_match: severity: warning equal: [alertname, cluster, service] receivers: - name: default email_configs: - to: opsexample.com - name: pagerduty-critical pagerduty_configs: - service_key: your-key - name: email-ops email_configs: - to: opsexample.com headers: Subject: 磁盘告警: {{ .GroupLabels.instance }}效率技巧inhibit_rules抑制规则是减少告警噪音的神器。比如服务器宕机时该服务器上的CPU高、内存不足等告警就没意义了可以被抑制。四、服务发现让监控自动长眼睛手动维护监控目标那是不可能的这辈子都不可能的。Prometheus支持多种服务发现机制4.1 Kubernetes SD云原生标配在K8s环境中Prometheus可以自动发现Pod、Service、Nodescrape_configs: # 发现所有Pod - job_name: kubernetes-pods kubernetes_sd_configs: - role: pod namespaces: names: - default - production relabel_configs: # 只抓取带prometheus.io/scrape注解的Pod - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape] action: keep regex: true # 从注解中读取端口 - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_port] action: replace target_label: __address__ regex: ([^:])(?::\d)?;(\d) replacement: $1:$2 # 设置实例标签 - source_labels: [__meta_kubernetes_pod_name] target_label: instance # 发现所有Service Endpoints - job_name: kubernetes-endpoints kubernetes_sd_configs: - role: endpoints relabel_configs: - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape] action: keep regex: true# 在你的Deployment中添加注解 apiVersion: apps/v1 kind: Deployment metadata: name: my-app spec: template: metadata: annotations: prometheus.io/scrape: true prometheus.io/port: 8080 prometheus.io/path: /metrics效率技巧使用relabel_configs的keep和drop动作可以只监控带特定标签的资源。配合K8s的annotation实现声明式监控——想被监控打个标签就行。4.2 Consul SD服务注册中心的完美搭档如果你使用Consul做服务注册Prometheus可以无缝对接scrape_configs: - job_name: consul-services consul_sd_configs: - server: consul:8500 datacenter: dc1 tags: - prometheus relabel_configs: # 只抓取带prometheus标签的服务 - source_labels: [__meta_consul_tags] regex: .*prometheus.* action: keep # 使用服务名作为job标签 - source_labels: [__meta_consul_service] target_label: job # 使用节点名作为instance标签 - source_labels: [__meta_consul_node] target_label: instance4.3 File SD简单但强大File SD通过读取文件来发现目标适合静态环境或作为其他SD的补充scrape_configs: - job_name: file-sd file_sd_configs: - files: - /etc/prometheus/targets/*.json - /etc/prometheus/targets/*.yml refresh_interval: 5m# /etc/prometheus/targets/web-servers.json [ { targets: [web-01:9100, web-02:9100], labels: { env: production, team: platform } }, { targets: [web-staging-01:9100], labels: { env: staging, team: platform } } ]⚠️避坑警告File SD的文件必须是JSON或YAML格式且Prometheus需要对该文件有读权限。如果文件格式错误Prometheus会静默忽略不会报错建议用promtool check config检查配置。五、告警规则从狼来了到精准打击5.1 编写高质量的告警规则好的告警规则应该具备可行动性、及时性、准确性。# /etc/prometheus/rules/alerts.yml groups: - name: node-alerts rules: # CPU使用率告警 - alert: HighCPUUsage expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{modeidle}[5m])) * 100) 80 for: 5m labels: severity: warning annotations: summary: High CPU usage on {{ $labels.instance }} description: CPU usage is above 80% (current value: {{ $value }}%) # 内存使用率告警 - alert: HighMemoryUsage expr: | ( node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes ) / node_memory_MemTotal_bytes * 100 85 for: 5m labels: severity: warning annotations: summary: High memory usage on {{ $labels.instance }} description: Memory usage is above 85% (current value: {{ $value }}%) # 磁盘即将写满预测4小时内 - alert: DiskWillFillIn4Hours expr: predict_linear(node_filesystem_avail_bytes{mountpoint/}[1h], 4 * 3600) 0 for: 5m labels: severity: critical annotations: summary: Disk will fill soon on {{ $labels.instance }} description: Disk is predicted to fill within 4 hours # 服务宕机 - alert: InstanceDown expr: up 0 for: 1m labels: severity: critical annotations: summary: Instance {{ $labels.instance }} down description: {{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minute. - name: application-alerts rules: # HTTP错误率过高 - alert: HighErrorRate expr: | sum(rate(http_requests_total{status~5..}[5m])) / sum(rate(http_requests_total[5m])) 0.05 for: 2m labels: severity: critical annotations: summary: High error rate detected description: Error rate is above 5% (current value: {{ $value }}) # P99延迟过高 - alert: HighLatency expr: histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m])) 1 for: 5m labels: severity: warning annotations: summary: High latency detected description: P99 latency is above 1 second (current value: {{ $value }}s)效率技巧for参数表示告警需要持续触发多长时间才发送。设置合理的for可以避免瞬时波动导致的误报。比如CPU瞬间飙高几秒是正常的但持续5分钟高负载就需要关注了。5.2 告警分组告别告警风暴当一台服务器宕机可能会触发几十个相关告警。Alertmanager的分组功能可以将它们合并# alertmanager.yml route: group_by: [alertname, cluster] group_wait: 30s # 初次告警等待30秒收集同组告警 group_interval: 5m # 同组告警5分钟发送一次 repeat_interval: 4h # 重复告警4小时发送一次效果对比不分组收到50封邮件每封一个告警分组后收到1封邮件包含50个告警摘要5.3 告警抑制与静默抑制Inhibition高优先级告警触发时抑制低优先级相关告警。# alertmanager.yml inhibit_rules: # 集群宕机时抑制该集群的所有其他告警 - source_match: alertname: ClusterDown severity: critical target_match: severity: warning equal: [cluster]静默Silence临时屏蔽特定告警常用于维护窗口。可以通过Alertmanager UI手动创建静默规则也可以通过API# 创建静默规则维护窗口 curl -X POST http://alertmanager:9093/api/v1/silences \ -H Content-Type: application/json \ -d { matchers: [ {name: alertname, value: HighCPUUsage, isRegex: false}, {name: instance, value: web-01.*, isRegex: true} ], startsAt: 2024-01-01T00:00:00Z, endsAt: 2024-01-01T04:00:00Z, createdBy: ops-team, comment: Scheduled maintenance }⚠️避坑警告静默规则用完后记得删除我见过有人设置了永久静默然后真的出事了没收到告警。建议设置合理的过期时间并定期审计静默规则。六、性能优化别让监控成为被监控的对象6.1 高基数问题Prometheus的阿喀琉斯之踵高基数High Cardinality是Prometheus性能问题的头号元凶。什么是基数就是时间序列的数量。# 低基数 - 好 http_requests_total{methodGET, status200} # 可能的组合method(3) * status(5) 15个时间序列 # 高基数 - 坏 http_requests_total{methodGET, status200, user_id12345} # 如果user_id有100万个那就是100万个时间序列Prometheus会炸常见的高基数陷阱将用户ID、订单ID、IP地址作为标签将时间戳、随机数作为标签将URL路径含ID原样作为标签⚠️避坑警告Prometheus官方建议单实例不要超过100万个时间序列。如果你把用户ID作为标签轻松就能突破这个限制。记住标签是用来做聚合和筛选的不是用来存储唯一标识的。6.2 存储优化让数据存得更久# prometheus.yml 存储优化配置 storage: tsdb: # 保留策略 retention.time: 30d # 保留30天 retention.size: 100GB # 或最多100GB # 压缩配置 min-block-duration: 2h max-block-duration: 2h # 远程存储长期存储 remote_write: - url: http://thanos-receive:19291/api/v1/receive queue_config: max_samples_per_send: 1000 max_shards: 200 write_relabel_configs: - source_labels: [__name__] regex: go_.* # 不发送Go运行时指标到远程 action: drop6.3 远程存储Thanos vs Cortex当单实例Prometheus无法满足需求时需要引入远程存储方案Thanos架构Sidecar Query Store Compactor特点与Prometheus无缝集成支持全局视图、长期存储、高可用适用已有Prometheus集群需要扩展┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ Prometheus │ │ Prometheus │ │ Prometheus │ │ Sidecar │ │ Sidecar │ │ Sidecar │ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │ │ │ └───────────────────┼───────────────────┘ │ ┌──────┴──────┐ │ Query │◄── 全局查询入口 └──────┬──────┘ │ ┌───────────────┼───────────────┐ │ │ │ ┌────┴────┐ ┌────┴────┐ ┌────┴────┐ │ Store │ │ Store │ │ Compact │ │ (对象存储)│ │ (对象存储)│ │ (压缩) │ └─────────┘ └─────────┘ └─────────┘Cortex架构Distributor Ingester Querier Storage Backend特点多租户、水平扩展、兼容Prometheus API适用SaaS场景、需要多租户隔离特性ThanosCortex多租户不支持原生支持水平扩展支持原生支持存储后端对象存储(S3/GCS)支持多种后端学习曲线较低较高社区活跃度高高效率技巧如果你只是需要长期存储Thanos Sidecar Store Compactor就够了。Query组件只在需要全局视图跨多个Prometheus查询时才需要。6.4 抓取优化减少资源消耗scrape_configs: - job_name: optimized-scrape scrape_interval: 30s # 不需要太频繁的指标放宽间隔 scrape_timeout: 10s # 设置超时避免慢目标拖垮Prometheus sample_limit: 1000 # 限制单个目标的样本数防止爆炸 series_limit: 100 # 限制单个目标的时间序列数 static_configs: - targets: [target:9100]效率技巧使用sample_limit和series_limit可以防止单个异常目标比如突然暴露了几百万指标拖垮整个Prometheus。这是生产环境的必备配置。七、文末三件套源码获取关注此系列获取后续更新后台回复’prometheus’获取完整配置文件和Docker Compose部署模板。思考题你们现在用什么监控系统是传统的Zabbix/Nagios还是已经迁移到Prometheus在迁移过程中遇到了哪些坑欢迎在评论区分享你的故事。系列预告下一篇我们将深入探讨Grafana把Prometheus数据变成炫酷的仪表盘ELK Stack日志收集与分析的黄金搭档Jaeger分布式链路追踪定位性能瓶颈高可用架构如何构建永不宕机的监控体系总结Prometheus作为云原生监控的事实标准凭借其Pull模式、强大的PromQL、丰富的生态已经成为现代基础设施监控的首选。但工具再强大也需要正确的使用姿势理解架构Pull模式不是缺点而是优势合理规划避免高基数设置合理的抓取间隔告警治理分组、抑制、静默让告警有意义长期规划数据量大了及时引入远程存储“监控不是目的可观测性才是。Prometheus只是工具理解你的系统才是核心。”标签: Prometheus, 云原生监控, PromQL, Alertmanager, 时序数据库, 监控告警, 可观测性参考链接Prometheus官方文档Prometheus最佳实践Thanos GitHubCortex GitHub本文首发于CSDN转载请注明出处。

如何通过Obsidian微信读书插件构建个人知识管理系统

如何通过Obsidian微信读书插件构建个人知识管理系统【免费下载链接】obsidian-weread-plugin Obsidian Weread Plugin is a plugin to sync Weread(微信读书) hightlights and annotations into your Obsidian Vault. 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian…...

2026/6/11 14:47:55 阅读更多 →

DDrawCompat：3步解决DirectDraw兼容性问题，让经典游戏在现代Windows上完美运行

DDrawCompat：3步解决DirectDraw兼容性问题，让经典游戏在现代Windows上完美运行【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https:…...

2026/6/11 14:47:48 阅读更多 →

构建现代化数据集成平台：从零代码到可视化ETL工作流

构建现代化数据集成平台：从零代码到可视化ETL工作流【免费下载链接】data-integration 基于kettle实现的web版数据集成平台，致力于提供web可拖拽的数据集成平台。项目地址: https://gitcode.com/gh_mirrors/da/data-integration 在数据驱动决策…...

2026/6/11 14:46:42 阅读更多 →

CSDN AI数字营销卡片配置手册（跳转权限解禁版）：官方未公开的3种合规跳转变通方案

更多请点击： https://codechina.net 第一章：CSDN AI 数字营销的引流卡片支持跳转官网、小程序链接吗？ CSDN AI 数字营销平台提供的引流卡片，是面向技术创作者与企业用户的核心转化组件，其核心能力之一即为外链跳转。目…...

2026/6/10 17:09:16 阅读更多 →

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南【免费下载链接】ArchivePasswordTestTool 利用7zip测试压缩包的功能对加密压缩包进行自动化测试密码项目地址: https://gitcode.com/gh_mirrors/ar/ArchivePasswordTestTool 你是否曾经面对一个加密…...

2026/6/10 1:59:41 阅读更多 →

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？ 【免费下载链接】sticky A sticky notes app for the linux desktop 项目地址: https://gitcode.com/gh_mirrors/stic/sticky 在Linux桌面上，你是否经常需要快速记录一闪而过的灵…...

2026/6/10 19:11:44 阅读更多 →

YOLO11部署优化：OpenVINO推理 | 在Intel CPU上利用OpenVINO异构推理加速，无需GPU也能实时检测

我在Intel i7-13700上实测，YOLO11n经过OpenVINO INT8量化后推理延迟从原始的92ms降至19ms，配合异构调度实现CPU+GPU双核并行后进一步压缩到11ms，无需独立GPU即可跑满30FPS实时检测写在前面：一个被低估的部署痛点过去两年，我在三个不同的工业视觉项目中遇到同样的困境—…...

2026/6/10 7:12:49 阅读更多 →