Kubernetes集群的高可用性设计与实践

张

张建站

2026/4/25 4:43:34

10分钟阅读

Kubernetes集群的高可用性设计与实践硬核开场各位技术老铁今天咱们聊聊Kubernetes集群的高可用性设计与实践。别跟我扯那些理论直接上干货在云原生时代Kubernetes集群的高可用性已经成为企业级应用的核心需求。不搞高可用那你的集群可能在关键时刻掉链子导致业务中断损失惨重。核心概念高可用性是什么高可用性High AvailabilityHA是指系统在面对各种故障时能够保持正常运行的能力。在Kubernetes集群中高可用性意味着即使部分组件发生故障整个集群仍然能够正常运行确保应用的连续性和可靠性。高可用性的核心指标可用性系统能够正常运行的时间比例通常用99.9%、99.99%等表示故障恢复时间系统从故障中恢复到正常状态的时间故障转移时间系统从主节点故障到备用节点接管的时间数据一致性故障转移后数据的一致性和完整性实践指南1. 控制平面高可用多主节点部署# 部署第一个主节点 kubeadm init --control-plane-endpoint load-balancer:6443 --upload-certs # 部署第二个主节点 kubeadm join load-balancer:6443 --token token --discovery-token-ca-cert-hash hash --control-plane --certificate-key cert-key # 部署第三个主节点 kubeadm join load-balancer:6443 --token token --discovery-token-ca-cert-hash hash --control-plane --certificate-key cert-key负载均衡配置# nginx负载均衡配置 upstream kubernetes-apiserver { server master1:6443; server master2:6443; server master3:6443; least_conn; } server { listen 6443; server_name load-balancer; location / { proxy_pass https://kubernetes-apiserver; proxy_ssl_certificate /etc/nginx/ssl/nginx.crt; proxy_ssl_certificate_key /etc/nginx/ssl/nginx.key; proxy_ssl_trusted_certificate /etc/nginx/ssl/ca.crt; proxy_ssl_verify on; proxy_ssl_verify_depth 2; } }2. 数据存储高可用etcd集群部署apiVersion: etcd.database.coreos.com/v1beta2 kind: EtcdCluster metadata: name: etcd-cluster namespace: kube-system spec: size: 3 version: 3.5.4 repository: quay.io/coreos/etcd resources: requests: cpu: 1 memory: 2Gi limits: cpu: 2 memory: 4Gi storage: storageClassName: standard resources: requests: storage: 10Gietcd备份与恢复# 备份etcd ETCDCTL_API3 etcdctl --endpointshttps://127.0.0.1:2379 --cacert/etc/kubernetes/pki/etcd/ca.crt --cert/etc/kubernetes/pki/etcd/server.crt --key/etc/kubernetes/pki/etcd/server.key snapshot save /backup/etcd-snapshot-$(date %Y%m%d_%H%M%S).db # 恢复etcd ETCDCTL_API3 etcdctl --endpointshttps://127.0.0.1:2379 --cacert/etc/kubernetes/pki/etcd/ca.crt --cert/etc/kubernetes/pki/etcd/server.crt --key/etc/kubernetes/pki/etcd/server.key snapshot restore /backup/etcd-snapshot.db3. 工作节点高可用节点亲和性与反亲和性apiVersion: apps/v1 kind: Deployment metadata: name: app1 spec: replicas: 3 selector: matchLabels: app: app1 template: metadata: labels: app: app1 spec: affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: - app1 topologyKey: kubernetes.io/hostname containers: - name: app1 image: app1:latestPod中断预算apiVersion: policy/v1 kind: PodDisruptionBudget metadata: name: app1-pdb spec: minAvailable: 2 selector: matchLabels: app: app14. 网络高可用网络插件配置# 安装Calico网络插件 kubectl apply -f https://docs.projectcalico.org/v3.24/manifests/calico.yaml # 安装Cilium网络插件 helm repo add cilium https://helm.cilium.io/ helm install cilium cilium/cilium --namespace kube-system网络策略配置apiVersion: networking.k8s.io/v1 kind: NetworkPolicy metadata: name: app1-network-policy spec: podSelector: matchLabels: app: app1 policyTypes: - Ingress - Egress ingress: - from: - podSelector: matchLabels: app: app2 ports: - protocol: TCP port: 8080 egress: - to: - podSelector: matchLabels: app: app3 ports: - protocol: TCP port: 90905. 存储高可用存储类配置apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: standard provisioner: kubernetes.io/aws-ebs parameters: type: gp2 reclaimPolicy: Delete allowVolumeExpansion: true volumeBindingMode: Immediate持久卷声明配置apiVersion: v1 kind: PersistentVolumeClaim metadata: name: app1-pvc spec: accessModes: - ReadWriteOnce resources: requests: storage: 10Gi storageClassName: standard6. 应用高可用部署策略配置apiVersion: apps/v1 kind: Deployment metadata: name: app1 spec: replicas: 3 strategy: type: RollingUpdate rollingUpdate: maxSurge: 1 maxUnavailable: 0 selector: matchLabels: app: app1 template: metadata: labels: app: app1 spec: containers: - name: app1 image: app1:latest ports: - containerPort: 8080服务配置apiVersion: v1 kind: Service metadata: name: app1 spec: selector: app: app1 ports: - port: 80 targetPort: 8080 type: ClusterIP 最佳实践1. 控制平面高可用多主节点部署部署至少3个主节点确保控制平面的高可用性负载均衡配置使用负载均衡器分发API服务器的请求确保请求的均匀分布etcd集群部署至少3个etcd节点确保数据存储的高可用性定期备份定期备份etcd数据确保在灾难发生时能够快速恢复监控与告警监控控制平面组件的状态设置合理的告警规则2. 工作节点高可用节点分布将工作节点分布在不同的可用区或物理机器上避免单点故障Pod调度使用节点亲和性和反亲和性确保Pod分布在不同的节点上Pod中断预算设置Pod中断预算确保在节点维护时应用的可用性自动扩缩容使用Horizontal Pod AutoscalerHPA根据负载自动调整Pod数量节点自动修复配置节点自动修复机制在节点故障时自动替换节点3. 网络高可用网络插件选择选择支持高可用性的网络插件如Calico、Cilium等网络策略配置合理的网络策略确保网络的安全性和可靠性网络监控监控网络的性能和状态及时发现和解决网络问题网络冗余配置网络冗余确保网络的高可用性网络性能优化优化网络配置提高网络性能4. 存储高可用存储类配置选择支持高可用性的存储类如AWS EBS、GCE PD等持久卷管理合理管理持久卷确保数据的安全性和可靠性存储监控监控存储的使用情况和性能及时发现和解决存储问题数据备份定期备份存储数据确保在灾难发生时能够快速恢复存储性能优化优化存储配置提高存储性能5. 应用高可用部署策略选择合适的部署策略如滚动更新、蓝绿部署、金丝雀部署等服务配置配置合理的服务确保应用的访问可靠性健康检查配置合理的健康检查确保应用的可用性自动恢复配置应用的自动恢复机制在应用故障时能够快速恢复监控与告警监控应用的状态和性能设置合理的告警规则实战案例案例金融科技公司的Kubernetes高可用集群背景某金融科技公司需要部署一个高可用的Kubernetes集群确保核心业务系统的连续性和可靠性。解决方案控制平面高可用部署3个主节点使用负载均衡器分发API服务器的请求部署3个etcd节点确保数据存储的高可用性工作节点高可用部署6个工作节点分布在3个可用区使用节点亲和性和反亲和性确保Pod分布在不同的节点上网络高可用使用Calico网络插件配置合理的网络策略确保网络的安全性和可靠性存储高可用使用AWS EBS存储类配置合理的持久卷声明定期备份存储数据应用高可用使用滚动更新部署策略配置合理的服务和健康检查确保应用的可用性成果集群的可用性达到99.99%故障恢复时间从小时级减少到分钟级系统的可靠性和稳定性显著提高业务中断时间显著减少常见坑点单点故障控制平面或etcd集群节点数量不足导致单点故障负载均衡配置不当负载均衡器配置不当导致请求分发不均匀网络配置错误网络插件配置错误导致网络故障存储配置不当存储类配置不当导致存储故障应用部署策略不当应用部署策略不当导致部署过程中出现问题监控不足缺乏对集群和应用的监控无法及时发现和解决问题备份策略不当缺乏对etcd和存储数据的备份导致数据丢失总结Kubernetes集群的高可用性设计与实践是一个复杂的过程需要从控制平面、数据存储、工作节点、网络、存储和应用等多个方面入手。通过合理的高可用设计和实践可以显著提高集群的可用性和可靠性确保应用的连续性和稳定性。记住高可用性不是一次性配置而是需要持续优化和改进的过程。只有根据实际需求和系统特点不断调整和优化高可用策略才能充分发挥Kubernetes的价值。最后送给大家一句话高可用性是Kubernetes集群的核心需求它通过多节点部署、负载均衡、数据备份等多种手段确保集群在面对各种故障时能够保持正常运行为企业的业务发展提供可靠的技术支持。各位老铁加油

LLM Agents实战解析：MetaGPT、AutoGen、AgentVerse的架构对比与应用选型

1. 从单兵作战到团队协作：LLM Agents的进化之路记得我第一次接触LLM Agents时，被单个AI智能体完成复杂任务的能力震撼到了。但随着项目复杂度提升，很快就遇到了瓶颈——就像让一个程序员同时做产品设计、开发、测试所有工作，质量…...

2026/4/19 5:28:03 阅读更多 →

Qwen3.5-4B-Claude-Opus开源大模型教程：Web镜像安全配置最佳实践

Qwen3.5-4B-Claude-Opus开源大模型教程：Web镜像安全配置最佳实践 1. 模型与镜像概述 Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF是基于Qwen3.5-4B的推理蒸馏模型，特别强化了结构化分析、分步骤回答以及代码与逻辑类问题的处理能力。该版本以…...

2026/4/20 16:42:32 阅读更多 →

终极指南：Paperless-AI高级配置技巧 - 自定义规则、限制条件和智能标签全解析

终极指南：Paperless-AI高级配置技巧 - 自定义规则、限制条件和智能标签全解析【免费下载链接】paperless-ai An automated document analyzer for Paperless-ngx using OpenAI API, Ollama, Deepseek-r1, Azure and all OpenAI API compatible Services to automat…...

2026/4/20 20:16:00 阅读更多 →

从T3到T5：全志工控处理器性能跃迁与工业应用场景深度解析

1. 全志T3与T5处理器核心架构解析全志T3（A40I）和T5（T507）作为两代工控处理器，在核心架构上有着显著差异。T3采用四核Cortex-A7架构，主频1.2GHz，搭配Mali400MP2 GPU，属于经典的"…...

2026/4/24 19:27:19 阅读更多 →

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全图解实战）一、前言二、列出 ES 所有索引：整体流程流程图三、Elasticsearch 列出所有索引：核心命令3.1 方法1：_cat/indices（最常用、运维…...

2026/4/24 19:27:19 阅读更多 →

SAP PI/PO HTTPS接口调用实战：从SSL证书导入到彻底告别iaik.security.ssl.SSLCertificateException

1. 当SAP PI/PO遇到HTTPS接口报错时发生了什么？ 最近在帮客户调试SAP PI系统调用外部HTTPS接口时，遇到了一个让人头疼的问题。系统在调用Swagger Petstore的API时，控制台突然抛出"iaik.security.ssl.SSLCertificateException: Peer cert…...

2026/4/24 19:27:20 阅读更多 →