作为人工智能在运维领域的创新应用,智能运维已成为现代化数据中心应对复杂技术架构、严苛运行要求等一系列挑战的必然选择。顺应这一趋势,智能运维系列标准提供了一套全新的指导框架,本文重点解读了该系列标准的核心内容——以组织治理为引领、以场景实现为中心、以能力域构建为支撑所组成的智能运维能力框架。
数字化转型背景下,组织创新、技术创新、融合创新、跨界创新等快速缔造形成了新一轮发展趋势,众多企业纷纷借此来实现质量变革、效率变革与动力变革。其间,数字技术在与企业业务深度融合的同时,也使得IT运维难度不断增加,依靠人力堆积的传统运维方式已愈发难以满足全新的IT运维要求,而引入更为先进的工具和手段,成为应对新时期诸多挑战的必然选择。在此背景下,数据中心逐步从以制度和流程为主驱动的传统模式,快速向以数据与算法为主驱动的智能运维阶段迈进。
一、智能运维能力概述
当前,由于缺乏统一标准和框架指导,智能运维的实践应用效果参差不齐,诸多疑问亟待解开。为此,智能运维国家标准工作组(以下简称“工作组”)总结提出了智能运维领域的三大核心目标:一是解答什么是智能运维,即统一智能运维的定义;二是分析智能运维的能力水平,制定业界认可的智能运维能力评估框架;三是提炼成熟度评估模型,引导业界打造最佳实践。结合上述目标,工作组本着“从实践中来,到实践中去”的工作宗旨,开启了智能运维系列国标研制工程,以期能帮助同业深入了解智能运维的实现路径,厘清建设思路、明确建设方向、掌握建设方法。
总体而言,智能运维如今尚处于初级发展阶段,其标准研制工作需遵循“循序渐进、框架先行”的基本原则。从概念上讲,“智能运维(Algorithmic IT Operations)”由Gartner在2016年率先提出,意指基于算法的IT运维。此后,随着人工智能技术的发展,2018年Gartner将其英文全称更改为Artificial Intelligence for IT Operations,表明人工智能在IT运维领域的应用。此后,智能运维的概念不断被补充完善,但作为一种全新的运维模式,仍需要融入更多要素去实现传统运维的转型升级。
在标准建设方面,系列国标的第1部分是通用要求,侧重于智能运维能力框架的构建。在此基础上,工作组聚焦于数据、算法、技术等三个核心能力要素,致力于为智能运维框架打造坚实的“地基”。其中,数据是支撑智能运维的基石,算法是挖掘数据价值的关键,技术是实现智能运维的手段,上述三种要素也同时构成了系列国标的第2、第3和第4部分。智能运维系列标准之间的关系如图1所示。
二、智能运维能力框架解析
2021年9月,智能运维“以行促知”的阶段性成果——《信息技术服务智能运维通用要求》(以下简称《通用要求》)正式发布,智能运维能力框架作为其主要研究成果,核心大体可归结为“三驾马车”,即“以组织治理为引领、以场景实现为中心、以能力域构建为支撑”。智能运维能力框架如图2所示。
1.以组织治理为引领
智能运维是基于数据和算法驱动的新型运维方式,旨在打破原有职能团队间的“竖井”,消除数据壁垒,同时以组织治理为引领实现融合创新,进而高效应对各种错综复杂的环境。换言之,组织是保障智能运维可持续发展的重要力量。
举例来说,在构建智能运维模式的过程中,如果仍依赖各自为政的开发模式,没有将不同运维场景与共同用到的数据、技术等进行整合和沉淀,并实现能力共享,难免会出现大量重复建设,从而增加后续迭代的复杂度,甚至造成前台“烟囱林立”、后台支撑乏力的局面,此后更是要面对需求与开发间的大量矛盾,最终落得“用不好、不好用”的差评。因此,智能运维建设首先应作为“一把手工程”,从组织层面进行统筹规划、统一建设。
从实践角度,智能运维是一项对创新性要求很高的工作,运维组织需打破传统思维墙,建立柔性工作团队等新型的协作机制,并引入灵活的创新人才激励措施,同时广泛地发动运维人员参与创意挖掘、需求沟通、开发测试和体验调优等活动;此外,还可通过开展竞品分析、创客演说等活动营造创新氛围,建立可跟踪的沟通反馈渠道来及时获得需求建议,进而不断强化内部协作和创新机制。换言之,“以组织治理为引领”即坚持以人为本、管理与技术并重的发展理念,逐步实现运维人员在智能化建设工程中的角色转换。
2.以场景实现为中心
传统运维通常是基于流程梳理来界定各类角色职责,进而打破运维职能团队的部门墙,推动运维活动有序、高效地开展。与之相比,智能运维通过将新一代信息技术,尤其是人工智能技术应用到运维领域,可替代部分重复繁琐的人工操作,同时为管理角色赋能,帮助其处理复杂的分析决策活动,而实现运维场景分析则是首要环节。
一般情况下,运维场景主要指一系列实现具体运维目标时所需的人员、活动与对象的组合。场景既是智能运维需求的起点,也是最终效果的体现,其通过智能特征宣示了与以往传统运维场景的区别。简言之,“以场景实现为中心”旨在表明智能运维应以运维为中心,而不是脱离运维单纯在技术上“闭门造车”。
举例来说,在场景实现过程中,应首先根据场景复杂度、技术实现难度、数据质量情况、资源支持情况、需求紧迫性等要素,明确场景构建的阶段和步骤,之后再采用列举、分析、归纳等方法,识别场景建设的运维角色、运维活动、运维对象、智能特征等内容,最后则是应设立可评估或可量化的指标体系,如故障发现准确率、平均故障修复时间等。
3.以能力域构建为支撑
能力域建设既是场景实现过程中的经验沉淀,也是后续打造更多场景的储备与支撑。在标准编制过程中,工作组提出了数据管理、分析决策、自动控制等三大能力域,并将其定义为智能运维场景建设的根基。一般情况下,运维数据主要用于监控和排障,经常被看作是一次性消费,并未得到足够的重视。但是,随着运维数字化程度的逐步提升,智能运维要求有高质量数据作为基础支撑,甚至数据质量还将直接决定运维智能化的最终水平。
一旦具备了高质量的运维数据,运维数据分析决策即成为了智能运维领域的重要课题,其实现方式既可以基于海量数据进行机器学习,也可以依靠运维专家的经验和知识获得。在此基础上,企业可以根据不同的场景需求对运行系统作出合理判断或结论,并驱动自动控制能力执行运维操作,进而构建形成智能运维“大脑”。
值得注意的是,如要将分析决策中得到的运维判断与各个工具、平台、流程有效联动,离不开强大的自动控制能力。从某种意义上讲,自动控制能力是大幅提升运维工作效率的关键,它相当于运维的“手”和“脚”,不仅可以替代人工执行大量重复性的日常运维工作,还有助于促进运维操作标准化,提高运维流程的可控性,最终将运维知识进一步固化和沉淀到数字系统中。
综上,本文所述标准编制过程整体遵循了“以行促知”的原则,后续,“知”的重要性将体现在对“行”的指导上。未来,在国标征求意见过程中,工作组还将重点开展“以知促行”工作,充分发挥标准的引领作用,通过开展应用试点,推动国内智能运维水平迈上新的台阶。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/303345.html