信息技术服务智能运维第1部分:通用要求解读

作为人工智能在运维领域的创新应用，智能运维已成为现代化数据中心应对复杂技术架构、严苛运行要求等一系列挑战的必然选择。顺应这一趋势，智能运维系列标准提供了一套全新的指导框架，本文重点解读了该系列标准的核心内容——以组织治理为引领、以场景实现为中心、以能力域构建为支撑所组成的智能运维能力框架。

数字化转型背景下，组织创新、技术创新、融合创新、跨界创新等快速缔造形成了新一轮发展趋势，众多企业纷纷借此来实现质量变革、效率变革与动力变革。其间，数字技术在与企业业务深度融合的同时，也使得IT运维难度不断增加，依靠人力堆积的传统运维方式已愈发难以满足全新的IT运维要求，而引入更为先进的工具和手段，成为应对新时期诸多挑战的必然选择。在此背景下，数据中心逐步从以制度和流程为主驱动的传统模式，快速向以数据与算法为主驱动的智能运维阶段迈进。

一、智能运维能力概述

当前，由于缺乏统一标准和框架指导，智能运维的实践应用效果参差不齐，诸多疑问亟待解开。为此，智能运维国家标准工作组(以下简称“工作组”)总结提出了智能运维领域的三大核心目标：一是解答什么是智能运维，即统一智能运维的定义；二是分析智能运维的能力水平，制定业界认可的智能运维能力评估框架；三是提炼成熟度评估模型，引导业界打造最佳实践。结合上述目标，工作组本着“从实践中来，到实践中去”的工作宗旨，开启了智能运维系列国标研制工程，以期能帮助同业深入了解智能运维的实现路径，厘清建设思路、明确建设方向、掌握建设方法。

总体而言，智能运维如今尚处于初级发展阶段，其标准研制工作需遵循“循序渐进、框架先行”的基本原则。从概念上讲，“智能运维(Algorithmic IT Operations)”由Gartner在2016年率先提出，意指基于算法的IT运维。此后，随着人工智能技术的发展，2018年Gartner将其英文全称更改为Artificial Intelligence for IT Operations，表明人工智能在IT运维领域的应用。此后，智能运维的概念不断被补充完善，但作为一种全新的运维模式，仍需要融入更多要素去实现传统运维的转型升级。

在标准建设方面，系列国标的第1部分是通用要求，侧重于智能运维能力框架的构建。在此基础上，工作组聚焦于数据、算法、技术等三个核心能力要素，致力于为智能运维框架打造坚实的“地基”。其中，数据是支撑智能运维的基石，算法是挖掘数据价值的关键，技术是实现智能运维的手段，上述三种要素也同时构成了系列国标的第2、第3和第4部分。智能运维系列标准之间的关系如图1所示。

信息技术服务智能运维第1部分:通用要求解读 — 图1 智能运维系列标准之间的关系

二、智能运维能力框架解析

2021年9月，智能运维“以行促知”的阶段性成果——《信息技术服务智能运维通用要求》(以下简称《通用要求》)正式发布，智能运维能力框架作为其主要研究成果，核心大体可归结为“三驾马车”，即“以组织治理为引领、以场景实现为中心、以能力域构建为支撑”。智能运维能力框架如图2所示。

1.以组织治理为引领

智能运维是基于数据和算法驱动的新型运维方式，旨在打破原有职能团队间的“竖井”，消除数据壁垒，同时以组织治理为引领实现融合创新，进而高效应对各种错综复杂的环境。换言之，组织是保障智能运维可持续发展的重要力量。

举例来说，在构建智能运维模式的过程中，如果仍依赖各自为政的开发模式，没有将不同运维场景与共同用到的数据、技术等进行整合和沉淀，并实现能力共享，难免会出现大量重复建设，从而增加后续迭代的复杂度，甚至造成前台“烟囱林立”、后台支撑乏力的局面，此后更是要面对需求与开发间的大量矛盾，最终落得“用不好、不好用”的差评。因此，智能运维建设首先应作为“一把手工程”，从组织层面进行统筹规划、统一建设。

从实践角度，智能运维是一项对创新性要求很高的工作，运维组织需打破传统思维墙，建立柔性工作团队等新型的协作机制，并引入灵活的创新人才激励措施，同时广泛地发动运维人员参与创意挖掘、需求沟通、开发测试和体验调优等活动;此外，还可通过开展竞品分析、创客演说等活动营造创新氛围，建立可跟踪的沟通反馈渠道来及时获得需求建议，进而不断强化内部协作和创新机制。换言之，“以组织治理为引领”即坚持以人为本、管理与技术并重的发展理念，逐步实现运维人员在智能化建设工程中的角色转换。

2.以场景实现为中心

传统运维通常是基于流程梳理来界定各类角色职责，进而打破运维职能团队的部门墙，推动运维活动有序、高效地开展。与之相比，智能运维通过将新一代信息技术，尤其是人工智能技术应用到运维领域，可替代部分重复繁琐的人工操作，同时为管理角色赋能，帮助其处理复杂的分析决策活动，而实现运维场景分析则是首要环节。

一般情况下，运维场景主要指一系列实现具体运维目标时所需的人员、活动与对象的组合。场景既是智能运维需求的起点，也是最终效果的体现，其通过智能特征宣示了与以往传统运维场景的区别。简言之，“以场景实现为中心”旨在表明智能运维应以运维为中心，而不是脱离运维单纯在技术上“闭门造车”。

举例来说，在场景实现过程中，应首先根据场景复杂度、技术实现难度、数据质量情况、资源支持情况、需求紧迫性等要素，明确场景构建的阶段和步骤，之后再采用列举、分析、归纳等方法，识别场景建设的运维角色、运维活动、运维对象、智能特征等内容，最后则是应设立可评估或可量化的指标体系，如故障发现准确率、平均故障修复时间等。

3.以能力域构建为支撑

能力域建设既是场景实现过程中的经验沉淀，也是后续打造更多场景的储备与支撑。在标准编制过程中，工作组提出了数据管理、分析决策、自动控制等三大能力域，并将其定义为智能运维场景建设的根基。一般情况下，运维数据主要用于监控和排障，经常被看作是一次性消费，并未得到足够的重视。但是，随着运维数字化程度的逐步提升，智能运维要求有高质量数据作为基础支撑，甚至数据质量还将直接决定运维智能化的最终水平。

一旦具备了高质量的运维数据，运维数据分析决策即成为了智能运维领域的重要课题，其实现方式既可以基于海量数据进行机器学习，也可以依靠运维专家的经验和知识获得。在此基础上，企业可以根据不同的场景需求对运行系统作出合理判断或结论，并驱动自动控制能力执行运维操作，进而构建形成智能运维“大脑”。

值得注意的是，如要将分析决策中得到的运维判断与各个工具、平台、流程有效联动，离不开强大的自动控制能力。从某种意义上讲，自动控制能力是大幅提升运维工作效率的关键，它相当于运维的“手”和“脚”，不仅可以替代人工执行大量重复性的日常运维工作，还有助于促进运维操作标准化，提高运维流程的可控性，最终将运维知识进一步固化和沉淀到数字系统中。

综上，本文所述标准编制过程整体遵循了“以行促知”的原则，后续，“知”的重要性将体现在对“行”的指导上。未来，在国标征求意见过程中，工作组还将重点开展“以知促行”工作，充分发挥标准的引领作用，通过开展应用试点，推动国内智能运维水平迈上新的台阶。

原创文章，作者：奋斗，如若转载，请注明出处：https://blog.ytso.com/303345.html

信息技术服务 智能运维 第1部分:通用要求解读

相关推荐

发表回复

信息技术服务智能运维第1部分:通用要求解读