业务连续性侧重强调在长期的云上运营过程中保证业务不中断。业务中断是IT运维中较常见的事故,与数据泄露等风险不同,业务中断并不存在侥幸。一旦发生业务中断企业将即刻面临实际的业务损失,业务恢复所耽误的时间越长损失就会越大。且伴随着停机造成的直接盈利损失,还有客户信心流失、信誉损伤、名誉损伤,甚至影响更广泛的商业合作的达成。
企业应在重要业务上云之前优先制定能保障业务连续性的合规治理基线,确保重要业务上云之后不会因误操作、防护不足、负载激增等导致业务中断,同时也要确保真有中断发生的时候能快速恢复,尽可能减少因业务中断所造成的损失。
应对的风险
企业应考虑以下风险可能影响业务连续性:
-
不连续的资源管理风险。无人为操作,因业务依赖的IT资源欠费导致的资源自动释放,致使业务中断。
-
误操作风险。运维人员错误的大量删除IT资源,致使业务中断。
-
突增的负载。大多数互联网业务普遍存在所谓“高峰期”,对高峰期预判不足,可能导致因负载过量而业务中断。
-
超长的恢复时间。当业务中断真实发生时,如果没有预设备份机制和快速的灾后恢复机制,会导致业务中断的时间数倍延长,这期间的业务损失是几何倍的增长。
治理基线
企业应根据实际业务性质决定采用的治理策略,尤其是对公网防护能力、备份恢复能力、弹性能力的选择,这些将带来较大的成本。以下提供较通用的基线策略,可以作为参考:
-
根据IT所承载的实际业务,对IT资源进行关键性分级,对于承载关键业务、会影响重要客户或大量客户、业务本身需要较高稳定性SLA的IT资源进行标记。并对不同关键性层级的IT资源区分采取不同的治理策略。
-
对于关键性的IT资源应开启自动续费并确保账号中有足够的余额,或设置资源到期提前提醒及时续费,避免因欠费而停机中断。
-
在全局保证最小人群具备删除资源的权限,避免权限泛滥提升误操作的概率。
-
删除资源等影响业务连续性的关键操作应要求必须开启MFA认证,执行高危操作时增加多元认证确认。
-
为关键性较高的计算、网络、存储、数据库资源开启释放保护,避免来自自动脚本的误删除。
-
为面向公网的IP启用DDoS高防,清洗流量型和资源耗尽型DDoS攻击,隐藏被保护的源站服务器。
-
为业务开启云防火墙,管理互联网到业务的访问控制策略(南北向)和业务与业务之间的微隔离策略(东西向),进行流量监控、精准访问控制、实时入侵防御。
-
为应用开启防火墙防护外部访问风险,防御各类OWASP常见Web攻击并过滤海量恶意CC攻击,避免网站资产数据泄露。
-
实时监控关键性IT资源的负载,计算、网络等核心资源的负载应始终保持在80%以下,避免因负载过重导致业务中断。
-
采用弹性扩容缩容的运维方案,在业务高峰期快速扩容确保稳定性。
-
为每个业务制定明确的RTO和RPO,采取能满足容灾要求的备份机制和恢复机制。
-
对核心业务的数据平台制定高频率备份和多区域复制
-
为关键性业务虚机启用热备份和高可用模式
企业应根据业务的发展不断升级与加固稳定性防护和灾备机制,同时迭代相应的治理框架。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/153941.html