Tbase分布式系统容灾中的“脑裂”情况实战

分布式系统，通常是由若干台物理服务器通过网络搭建而成的，与单机系统不同的是，分布式系统通常由多台设备组成。主机（物理服务器）宕机或者网络故障是大概率事件，而脑裂场景则是分布式系统中的常见问题（如下图）。

Tbase 灾备系统——脑裂故障场景

当系统出现节点异常后，为避免脑裂，我们通常需要一个全局的调度集群，出现故障时，通过全局调度集群锁住原Master节点，并通过内部选举，提升某最优Slave节点为Master。到原有故障Master恢复后，在将其降级为Slave重新加入集群，使得系统仍然是一主两备，保障系统始终处于一个高可用的状态。

Tbase 灾备系统——灾备目标

深入到分布式系统调度内部过程，又需要去解决孤岛检测和角色校验两个问题。

Tbase 灾备方案——Master DN 故障

分布式系统的某一主机网络故障时，某一个节点就行是没有通讯的孤岛，因此孤岛检测很形象的比喻这种脑裂场景。因此分布式系统通常将孤岛检测拆分为以下几个步骤：

检测孤岛：分布式系统通过部署于每个节点的Agent，向集群所有主机发送网络心跳，实时检测连通性。若无法连通Center，意味着自己成为网络孤岛。
杀死实例：Agent 发现自己成为网络孤岛后，会主动发起请求杀死本机所有CN/DN实例。
容灾切换：Center 监听到集群 Master DN 异常（或无法连通时），主动容灾切换，以恢复数据库服务。由于原Master DN已被Agent杀死，整个系统只有新 Master DN 提供读写服务，因此系统没有 Master DN 脑裂。
恢复主备：孤岛主机网络恢复后，Center正常连通Agent后，会向该主机上的 Agent 发起做备指令，让原 Master DN 降级成为一个全新的 Slave DN，以恢复系统一主两备的高可用模式。

通过 Agent 的孤岛检测机制，Tbase 在任意 Master DN 网络故障情况下，都能保证系统一直处于高可用的状态。

Tbase 灾备方案——孤岛检测

当发生主机宕机后，分布式系统就需要通过角色校验机制来解决系统的脑裂问题，如下图所示，仍然以Tbase举例：

宕机切换：当 Master DN 所在主机发生宕机后，Center发起状态仲裁，生成容灾指令，对该主机上的 Master DN 执行容灾切换，容灾切换后，Tbase 系统中的每组 DN 节点都只有唯一的一个 Master DN 对外提供读写服务。
角色校验：当故障主机宕机重启后，Agent 和 Center 会通过心跳包对 Agent 所监控的节点执行一次主备角色校验。由于宕机后，Center 对故障主机上的原 Master DN 执行了容灾切换，因此 Center 认为该主机上的该 DN 节点角色为 Salve DN，但是在容灾切换的过程中，由于原 Master DN 主机因为宕机，无法接收容灾指令，因此宕机重启后，该主机上的 Agent 认为该 DN 节点角色仍然为 Master DN，此时 Agent 和 Center 发生角色校验失败，
杀死实例：角色校验失败后，Agent 会杀死本机所有 CN/DN 节点，以防止主机宕机重启后，原 Master DN 和新 Master DN 并存而出现系统脑裂。
恢复主备：在 Agent 由于角色校验失败将 CN/DN 杀死后，Center 会向原 Master DN 所在的 Agent 发起做备指令，将原 Master DN 降级成为新的 Slave DN，以恢复系统一主两备的高可用模式。

通过 Agent 和 Center 的角色校验机制，Tbase 在任意 Master DN主机宕机重启的情况下，也能保证系统一直处于高可用的状态。

Tbase 灾备方案——角色校验

Tbase分布式系统容灾中的“脑裂”情况实战

： » Tbase分布式系统容灾中的“脑裂”情况实战

原创文章，作者：Carrie001128，如若转载，请注明出处：https://blog.ytso.com/252373.html