所谓 自动化运维 ,即在最少的人工干预下,结合运用脚本与第三方工具,保证业务系统7*24小时高效稳定运行。这应该是所有业务系统运维终极目标。
● 自动化运维的三个层面 ●
按照运维的发展成熟度来看,运维大致可分为三个阶段:
依靠纯手工,重复的进行软件的部署与运维;
通过编写脚本,方便的进行软件的部署与运维;
借助第三方工具,高效的进行软件的部署与运维;
现在IT系统对运维的要求通常是:
事前预警
对各业务系统和底层的软硬件进行监控,以保证业务系统的正常运行。做到事前预警,避免故障来临,后知后觉。
事中解决
天有不测风云,即使是再完美的方案也可能有预料之外的故障,为保证在最短时间内恢复业务,系统必须能快速定位故障点。并进行告警分派并解决。
事后闭环
这里更加强调运维管理的流程方法,针对已产生的告警进行告警分派,解决。形成告警的闭环管理。
要实现以上要求,需要一个经验丰富且高效的运维团队,随着我们的业务系统不断增加,业务量的不断上升,传统依靠纯手工的运维方式,逐渐被淘汰。
我们更多的将注意力集中在通过脚本与借助第三方工具的运维方式上,这样不仅能满足我们对运维的要求,解放生产力,还能使我们的运维管理更加规范化,标准化,从而真正意义上的实现自动化运维。自动化运维的实现工具(脚本与第三方工具,通常这两者须结合使用。)
● 智能运维分步建设 ●
面对工具多样性、告警源多样性、数据多样性、团队多样性的场景,TOC 方案提供了边融合、边迭代的解决方案。
通过 “松耦合” 的方式持续整合专业运维工具、数据、流程,持续优化运维数据共享、团队协同、资源优化的运维效果,最终实现智能大数据运维。
建议TOC智慧解决方案的迭代步骤如下:
第一步:实现集中的告警服务台
分析梳理已有运维工具的告警数据源,选择适当的接口方式(API,邮件解析、短信解析、插件等)实现告警数据在TOC 的统一集中管理。同时严格规范告警策略和告警规则。
这个过程中可以依据实际情况逐步对工具进行合理的替代、升级、补充。设立集中的告警服务台岗位(团队),对TOC告警规范规则、及时响应负责任。
第二步:对接工单(ITSM)服务流程管理
TOC 作为汇聚多个告警源的集中告警服务台,与ITSM 工单流程统一对接,不仅避免各局部告警工具分别与ITSM 流程对接,而且能够从更高维度实现服务流程的统筹规划,从更高维度实现不同告警源的关联告警合并开单,提升服务管理能力和效率。
第三步:实现全局的统计分析
有了前两步的集中服务管理数据,可以通过全局的数据统计评价各告警源的规范性、各类服务响应的SLA水平,发现运维服务瓶颈,优化服务资源匹配。
第四步:梳理全局业务关联和告警关联
随着TOC 逐步整合汇聚的数据源不断丰富,可以在TOC 平台实现对全局业务关联逻辑,告警关联逻辑梳理,提供更全面的业务运维视图,并能基于海量数据确定故障影响的范围。
实现这一效果的前提是TOC数据的完整性达到足够的程度。
第五步:大数据平台数据融合
随着TOC运维数据的沉淀,依靠人工梳理,数据之间的关联关系远远不够,需引入大数据平台。根据TOC数据沉淀及现有的数据集和问题点,结合有监督学习和无监督学习的方式,进行机器学习,通过反复训练的方式,进一步提高场景和算法的拟合度,逐渐完善基于现有场景的智能算法。
**
第六步:大数据应用的建设**
大数据平台实现数据融合后,建立基于大数据场景的模块化应用。以智能算法及大数据作为支撑,依据算法输出的预测结果,简化IT运维操作,为运维管理决策提供更大的价值。
以金融行业IT运维管理为例,其解决方案主要是实现将基础监控中心,业务监控中心和运维服务中心进行统一管理。实现对IT基础设施,网络设备、服务器系统、数据库、中间件、业务系统等进行统一的监控和管理,提供对应用系统的集中监控和管理。发现故障及时告警处理并分析业务系统的运行状态和性能,预防故障发生,提高运维效率,规范故障解决流程,建立符合金融机构的IT运维服务流程。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/303038.html