合理地进行风险治理

在传统IT治理中,有时会采用充分的前置防护。在业务正式上线之前,充分分析业务运营流程并评估潜在风险。将治理措施在中台部署完成后,业务才上线运营。后续的业务管理流程只能使用事先经过治理审批的既定流程。而业务的迭代升级则需要进行新一轮的评估。这显然不适用于当前的云计算环境,原因如下:

  • 企业上云是为了充分利用云的敏捷性和弹性,云上IT系统的运维变更是高频且复杂的。过度的治理会限制云上业务的敏捷发展,使风险治理团队与业务团队成为对立面。
  • 风险永远存在,企业上云过程中的转变其实会带来更大的风险。但并非所有风险都需要被100%规避,需要充分评估风险的实际影响,采取不同的应对方法。
  • 在上云的不同阶段,或业务发展的不同阶段,风险治理的要求是不同的。而在云上,各个阶段的转换很迅速,没有风险治理团队能一开始就探测到所有潜在风险,风险治理是需要跟随业务的发展持续迭代的。

所以,风险治理团队需要在潜在风险控制业务发展速度IT治理成本中找到平衡。在业务发展的不同阶段,针对不同的风险采取不同的应对措施,持续迭代企业的风险治理策略。

风险治理策略的起点

前序文章中说过,风险是一直存在且不断变化的,对于某个企业来说,在业务上云的不同阶段、在云上发展的不同阶段都会面临不同于传统IT的各种风险。那么,与之相应的风险治理也必将是一个迭代的过程。

但万事开头难,在新项目中启动风险治理比持续迭代一套风险治理策略更难。在没有明确的业务逻辑前,很难有靶向地制定风险治理策略。

此时,就需要先识别一个通用的风险集合,再制定对应的通用风险治理策略,作为风险治理的起点。然后,再根据企业不同阶段面对的潜在风险持续迭代治理策略。

最小风险合集

一个通用的风险治理起点的确立需要先明确一个通用的最小风险合集。此时不需要考虑具体是哪些资产、存储什么数据、支持什么业务。

最小风险合集是所有项目无差别会遇到的风险:

  • 所有资产都有被错误删除的风险(比如由于误操作)。
  • 所有资产都有生产过量的风险。
  • 所有资产都可能受到弱密码或不安全设置的危害。
  • 任何开放端口暴露在互联网上的资产都有可能受到损害。

建议基于最小风险合集制定风险治理策略的最小基线,再随着业务的发展持续升级风险治理策略,这将有利于工作的顺利开始和发展。

最小治理基线

基于最小风险合集制定风险治理的通用策略,企业应根据初上云的业务实际情况来制定起点治理基线,需考虑初上云业务的业务性质、云上运维人员数量、需托管的云上IT规模等。以下提供较通用的基线策略,可以作为参考:

  • 限定云上可采购的资源白名单和上限。
  • 资源需具备基本的归属部门、归属计费单元、限定地理位置、SLA承诺、归属环境、归属应用、归属owner的标签。
  • 限定资源创建的区域。
  • 限定可访问资源的用户和角色列表。
  • 保证运维可行的情况下,保证最小人群具备采购和释放的权限。
  • 最小权限管理原则,高级权限需严格审批。
  • 强制设定强密码策略。
  • 必须开启基础计算、存储资源的删除保护功能。
  • 必须关闭关键计算、存储资源的公网访问。
  • 初上云多数会有一段时间处于混合云架构,云上云下通讯必须经过VPN。

风险治理策略的迭代

企业规划上云时,最初可能会将一些内部平台和运维系统搬迁上云,此时往往不涉及核心业务,所以不需要过多考虑数据防护、网络防护、灾备机制的问题,只需要通过最小治理基线避免过度采购、过度授权的风险。但随着企业将核心业务搬迁上云,核心业务又在云上得以大规模发展,在此过程中就需要逐步考虑更多潜在风险并基于最小治理基线不断地升级风险治理策略。

上云不同阶段的治理基线

  • 业务数据转存云上
    • 静止时,必须对所有重要数据加密。
    • 包含重要数据的网络应与其他子网隔离,并定期复查流量。
    • 包含重要数据的子网不能被公网访问,必须经过中间子网。对子网的访问必须经过防火墙的扫描和阻止防护。
    • 所有公网端口,必须设置自动DDoS防护。
    • 对关键性资源和存储重要数据的资源预设最小授权。通过例外策略来提升个别权限,对例外定期审核复查,且例外具备时限。
    • 所有账户启用MFA认证。
    • 备份策略。
    • 数据访问日志审计。
  • 核心业务上云
    • 虚机的热备份模式,高可用性模式。
    • 制定稳定恢复SLA,确定RTO、RPO。
    • 为所有云上资产启用监控。
    • 监控管理、审计管理权限与IT管理权限分立。
    • 为资源标记关键性标签,重点监控和防护20%的核心系统。
  • 规模化发展
    • 尽可能使用模板部署,模板中需包含应用基线、风险治理基线、监控审计基线、安全防护基线。
    • 为云上应用分配预算,设置预算限制机制。
    • 资产必须被监控实时利用率,并告警利用率超限的情况。
    • 必须标记每个资产的负责人。

几个主要的治理基线

  • 身份权限治理基线
  • 通用安全治理基线
  • 数据安全治理基线
  • 成本控制基线
  • 业务连续性基线

小结

IT风险治理的初衷是为了更好地支持业务发展而不是让业务束手束脚,在企业发展过程中的每个环节采用充分且合理的管理策略尤为重要。当前,云上业务的发展迅速且多变,IT风险治理也随业务快速迭代。企业的IT风险治理团队只有与业务团队、运维团队紧密合作、充分沟通,才有可能保持对业务风险的充分判断和合理规避。