高可用集群介绍入门以及实现技术

高可用集群

集群类型

-LB：Load Balance 负载均衡

LVS/HAProxy/nginx（http/upstream, stream/upstream）

-HA：High Availability 高可用集群

数据库、Zookeeper、Redis

SPoF: Single Point of Failure，解决单点故障

-HPC：High Performance Computing 高性能集群

https://www.top500.org

系统可用性

SLA：Service-Level Agreement

A = MTBF / (MTBF+MTTR）

95%=(602430)*(1-0.9995)

指标：99.9%, …, 99.999%，99.9999%

系统故障

硬件故障：设计缺陷、wear out（损耗）、自然灾害……

软件故障：设计缺陷 bug

实现高可用

提升系统高用性的解决方案：降低MTTR- Mean Time To Repair(平均故障时间)

解决方案：建立冗余机制

active/passive 主/备
active/active 双主
active –> HEARTBEAT –> passive
active <–> HEARTBEAT <–> active

高可用相关技术

HA service：

资源：组成一个高可用服务的“组件”，比如：vip，service process，shared storage

(1) passive node的数量

(2) 资源切换

shared storage：

NAS(Network Attached Storage)：网络附加存储，基于网络的共享文件系统。
SAN(Storage Area Network)：存储区域网络，基于网络的块级别的共享

Network partition 网络分区

quorum 法定人数

with quorum： > total/2

without quorum: <= total/2

隔离设备 fence

node：STONITH = Shooting The Other Node In The Head(强制下线/断电)

参考资料:

https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/7/html/high_availability_add-on_reference/s1-unfence-haar

双节点集群(TWO nodes Cluster)

辅助设备：ping node, quorum disk(仲裁设备)

Failover：故障切换，即某资源的主节点故障时，将资源转移至其它节点的操作
Failback：故障移回，即某资源的主节点故障后重新修改上线后，将之前已转移至其它节点的资源重新切回的过程

HA Cluster实现方案:

AIS：Applicaiton Interface Specification 应用程序接口规范

RHCS：Red Hat Cluster Suite红帽集群套件

参考资料：https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/5/html/cluster_suite_overview/ch.gfscs.cluster-overview-cso

高可用集群介绍入门以及实现技术插图

heartbeat：基于心跳监测实现服务高可用
pacemaker+corosync：资源管理与故障转移

vrrp：Virtual Router Redundancy Protocol

虚拟路由冗余协议,解决静态网关单点风险

-软件层—keepalived

-物理层—路由器、三层交换机

本文链接：http://www.yunweipai.com/35350.html

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/tech/pnotes/52710.html