过去的工具已无力应对当今变幻不定的 IT 局势。基础架构模型在持续快速改革,因此管理也应采用动态的流程和技术。
商业环境正从静态且可预测的物理系统(定义这个领域数十年)转变为可动态更改和重新配置的软件定义资源环境。此外,随着网络基础设施的不断发展,基于旧模型的软件系统要投入越来越多的精力来保持有效性,但仍会越来越落后。
在这场 IT 运维 (ITOps) 变革的影响下,数字化业务转型力量迫使传统 IT 管理技术走上改变之路。因此,现有 ITOps 流程和程序以及 IT 生态系统的管理结构发生了重大变化。
Gartner 在 2017 年为 IT 运维或 AIOps 创造了术语人工智能,深入反映这些变革的精神核心。
AIOps 使用数据科学和机器学习技术助力 ITOps 团队实时了解影响所管理系统的性能或可用性的问题。
在过去的几年中,企业争先恐后地去了解这种新技术,并试图走在它前面,AIOps 市场类别呈爆炸式增长,同时 Gartner 领域的咨询数量呈指数级增长。
本权威指南讨论有关 AIOps 的一切须知信息,推动它诞生的市场和技术变革以及如何应对这些挑战。
AIOps 之路
首先必须了解数字转型及其如何推动产生 AIOps。
数字转型涵盖新技术的实施、云应用和快速变化。它要求人们将重心转移到开发人员和应用程序上,并加快创新步伐。它还要获取如下设施:
- 物联网 (IOT) 设备
- 新的数字用户-机器代理
- 应用程序编程接口 (API)
所有这些新用户和新技术将传统的服务和性能管理工具和战略挤压到极限。
成功的数字转型离不开 AIOps,它赋能 IT 以大多数现代企业所需的速度运行。因此,AIOps 阐述了应对 ITOps 领域数字转型所需的范式转换。
何为 AIOps?
AIOps 是“IT 人工智能运维”的首字母缩写。它是 ITOps(IT 运维)的未来。它结合了人类和算法智能,全面监测公司和企业在日常运营中所依赖的 IT 系统的性能和状态。
它是一种高端多层技术平台,使用机器学习和分析技术分析采集自各种 ITOps 设备和工具的大数据,以此增强和自动执行 IT 流程,从而自动发现问题并实时响应问题。
AIOps 要求您将孤立的 IT 数据移动到大数据平台中的综合观测数据(例如,工作日志和监控系统)和互动数据(如工作单、活动或事故记录中的数据)。
然后,AIOps 根据组合的数据实施机器学习和分析。在此基础上,通过持续的深入洞察推动不断改进自动化实施。因此,您可以将 AIOps 视为核心 IT 功能的 CI/CD(持续集成和持续部署)。
AIOps 桥接了三个 IT 学科(自动化、服务管理和性能管理)以实现持续洞察和改进的目标。人们认识到,在新的加速和超大规模 IT 环境中,有一种利用机器学习和大数据的全新方法,可克服人力和传统工具限制的问题。
AIOps 工作原理
AIOps 使用组织内的现有数据源,包括日志事件、传统 IT 监控、网络性能异常等。从这些来源系统收集的数据运用数学模式进行处理,从而自动识别重大事件,无需费力的手工预筛选。
另一层算法可分析事件,并识别存在类似潜在问题症状的一群相关活动。算法过滤可大大降低 ITOps 团队必须处理的警报干扰,同时还可避免不同工作组的工作单冗余路由而产生的重复情况。
取而代之的是,您可以动态组建虚拟团队,并分派不同的专家跨部门或技术边界的问题。现有的事件管理和票务系统可运用 AIOps 的功能,直接集成到现有流程中。
AIOps 进一步提高了自动化程度。它能够触发工作流程,不管是否有人工干预。当前的 ChatOps 功能在诊断和补救措施的正常协作过程中,积极利用现有的自动化功能。
随着机器学习系统变得越来越精确和可靠,现在无需人工干预即可触发易于理解的常规操作,从而及时解决问题以免干扰用户的使用。
AIOps 的要素
以下是构成 AIOps 平台的技术。
- 数据源。数据源广泛而多样化,来自于现有孤立的工具和各种 IT 类,包括事件、日志、指标、工作单、监控和作业数据等。
- 大数据。包括允许实时处理的现代化大数据平台。例如,Elastic Stack、Hadoop 2.0 或部分 Apache 技术。
- 规则和模式。AIOps 平台的规则应用和模式识别加强了杠杆作用,可发现上下文,同时发现数据的常态和规律。它们可能特定/不特定于某个域。
- 机器学习。机器学习技术可根据新引入的数据和算法分析的输出结果自动创建新的算法或修改现有算法。
- 域算法。利用 IT 域领域的专业知识智能解释规则和模式,并根据企业数据和期望的结果进行应用。域算法有利于组织机构实现 IT 特定的目标,例如关联非结构化数据、消除干扰、针对异常发出警报、找出可能的原因以及建立基准。
- 自动化。利用机器学习和人工智能产生的结果,自动创建和应用对确定的问题和情况的响应。
- 人工智能 (AI)。人工智能可适应环境中的未知和新事物。
AIOps 的要求和功能
所有 AIOps 平台都应为您的企业带来以下三项功能。
- 自动执行日常操作,例如用户请求或不重要的 IT 系统警报。例如,AIOps 可以帮助服务台系统处理和满足用户自动配置资源的请求。它们还可以评估警报并确定是否需要采取措施,因为支持性的数据和相关指标均在正常参数范围内。
- 识别严重问题的速度和准确性远优于人工。IT 人员可能会解决非关键系统上的已知恶意软件事件,但会忽略关键服务器上启动的异常下载或进程,因为他们没有关注或预料到这种威胁。AIOps 系统则以完全不同的方式解决这些情况。它们会优先处理关键系统上因行为不正常而疑似攻击或感染的事件,其次是运行防病毒软件处理已知的恶意软件事件。
- 简化数据中心团队之间的互动。AIOps 为所有职能 IT 部门提供相关数据和见解。如果缺少这些支持人工智能的操作,团队必须通过手动发送数据或召开现场会议来解析和共享信息。AIOps 应该从企业的大量资源指标中了解可向每个组显示的数据。
驱动 AIOps 的推动因素是什么?它需求背后的理由是什么?
人工智能 (AI) 的前景是承担起人类工作,但速度更快、结果更好、规模更大。AIOps 可解决数字转型的规模、复杂性和速度难题,让您实现 ITOps 的这个目标。这些挑战包括:
-
- ITOps 在手动管理基础架构上面临的困难
现代化 IT 环境包括移动、托管和非托管云、第三方服务以及 SaaS 集成等,因此基础架构这词几乎是不恰当的。显然,传统的管理业务复杂性的方法在当今动态弹性的环境中不再行得通。通过手动的人工监督来管理和跟踪这种复杂性开始举步维艰。当前的 ITOps 技术已经超出了手动管理范畴。
-
- ITOps 要保留越来越庞大的数据量
性能监控以超快速度生成越来越多的警报和事件。在移动应用程序、物联网设备、API 和数字或机器用户诞生后,服务工作单数量开始呈阶梯式增长。
-
- 以越来越快的速度解决基础设施问题的需求
在企业实施数字化运营后,IT 就变成了一项业务。技术“消费化”改变了各行各业用户的期望。当下 IT 事件的响应必须即时,尤其在问题影响到用户体验的时候。
-
- 开发人员享受更大的权力和影响力,但责任仍由 IT 部门承担
在开发运维部门,程序员承担了更多的应用程序级监视责任,但整个 IT 生态系统的健康以及基础架构、应用程序和服务之间的交互仍由核心 IT 承担责任。
-
- 从网络中心转移更多的计算能力
第三方服务和云基础架构的易于采用特征让业务部门能够构建自己的 IT 应用程序和解决方案。控制和预算正在迁移到 IT 部门的边缘。因此,企业现可从外部核心 IT 添加更多的计算能力。
AIOps 与当前工具集成
AIOps 与现有流程和工具相互集成,汇集了实用信息、功能和见解。企业当下使用不同区域和不同用途的监控工具。每个工具对特定部门、团队或公司都有价值,但其他相关方无法利用它的价值。
因此,AIOps 并没有运用费力的工具合理化举措,试图用一刀切解决方案强行解决个人独特需求,而是跨域、团队和工具打造无缝可见性,支持特定工具的大力发展。
同样,AIOps 还确保只创建真实可操作的事件,避免事件重复,减轻 IT 服务团队管理 (ITSM) 的工作量。IT 基础结架构库 (ITIL) 的顺序性质还决定了 AIOps 可解决和消除大量 ITSM 用户烦恼。
AIOps 还实现了自动化。它可集成编排和工作流程,直接以全自动或半自动形式呈现给操作员。IT 部门多年来开发了大型自动化解决方案库,因此他们必须确保只有达到正确的条件才能触发。AIOps 不仅可保证这一点,而且可将风险控制在最低水平,最大限度发挥现有自动化投资的价值。
谁在使用 AIOps?
-
- 复杂的大型企业非常依赖大数据和 IT
如今,汇集各种类型技术的大规模 IT 环境的公司终究逃脱不了规模和复杂性两个难题。如果您将这些问题与严重依赖 IT 的业务模型结合在一起,AIOps 肯定是公司成功的一个决定性要素。尽管这些类型的企业存在于各行各业,但他们都有一个共同特征:规模庞大和迅速变化。业务敏捷性的需求上升带动了 IT 敏捷性的需求上涨。
-
- 云计算
迁移入云本身也是困难重重。例如扩展,整个 IT 迁移入云不太现实,也不可取。您会发现糅合不同 IT 基础架构交付形式的混合模式难以管理。
AIOps 可呈现所有类型基础架构的整体视图,帮助操作员了解来不及记录的关系变更,从而消除了运行混合云平台的大量风险。
-
- 开发运维团队
采用 DevOps 模型的公司,或者正在采用该模型的公司,可能会发现很难在参与工作的各方角色之间维持高度一致性。开发和操作系统直接整合到 AIOps 模型可减少诸多可能会发生的对接摩擦。
您希望开发团队对 IT 环境的状态有更深入的了解。您还希望您的运营团队能够全面了解开发人员计划于何时以何种方式在生产环境中进行更改或部署。这个全面视图有助于确保项目整体成功推进,达到敏捷性和响应速度要求。
-
- 数字化转型
数字转型举措的定义很多,但是一个共同的因素是对敏捷性和速度的要求。尽管从技术上说,这是个业务要求,但 IT 必须以业务要求的速度运行才能避免成为瓶颈或实现更广泛的目标。AIOps 可消除大部分摩擦,有利于 IT 为大部分数字转型项目提供所需支持。
AIOps 的优势
正确实施的 AIOps 平台可减少 IT 员工在日常警报上所花费的时间和精力。在机器学习和算法的运用下,IT 员工可训练 AIOps 平台不断精进。它们可逐渐吸收知识以改进软件的行为和有效性。
AIOps 工具可持续监控状态,不眠不休。员工可则可集中精力处理严重的复杂问题,同时落实计划举措提高业务稳定性和绩效。
AIOps 系统在对各种数据源进行整理和归类过程中,可观察企业多个运行、资源和服务之间的因果关系。这些机器学习和分析功能促使系统执行根本原因分析,从而加快疑难杂症故障排除,快速实施补救措施。
AIOps 改善了 IT 组之间以及 IT 部门与其他业务部门之间的工作流任务和协作。团队可以使用定制的报告和控制板快速了解要求和任务。他们还可以对接其他工作组,但无需学习其他工作组要掌握的知识。
AIOps 消除了噪音和干扰,有助于 IT 人员集中应对重要问题,不会被无关紧要的警报打扰。
AIOps 有助于关联多个数据源之间的信息,不仅打破了信息之间的藩篱,而且能洞察从物理、虚拟到云整个 IT 环境的全部状况,包括网络、计算和存储。
它推动服务所有者和专家之间的无摩擦协作。这可极大加快诊断、分析和解决速度,从而最大限度减少对最终用户的干扰。
AIOps 的缺陷
尽管基本的 AIOps 技术相对成熟,但要创建和组合技术以投入实际生产,还有很长一段路要走。以下是它的一些缺点:
- 它的有效性取决于您训练的算法以及它接收的数据。因此,终不能超出编程的限制。
- 实施、管理和维护 AIOps 平台可能需要花费大量的精力和时间。
- AIOps 系统依赖各种数据源以及数据保留、保护和存储。
- AIOps 要求企业完全信任工具,这是部分企业不喜欢它的一个原因。这是因为,为了使 AIOps 工具能够自主采取行动,他们必须准确地跟踪目标环境中的变化,收集并保护相关数据,形成正确的结论,确定操作的优先级,最终采取适当的自动化措施。
在企业中实施 AIOps
没有放之四海而皆准的成功模式。不过,下文的通用指南可帮助您入门。
- 立即掌握机器学习和人工智能的基础知识。
- 确定企业中 IT 团队最耗时的任务。尤其注意自动化流程可取代的重复性任务。
- 从小处着手,逐步向外扩展。查找 AIOps 可快速解决的最紧急问题。
- 尽量丰富为系统馈送的数据类型。
- 制定指标,帮助衡量 AIOps 投资的有效性。
AIOps 在现代化 IT 环境中的适用点
首次查看 AIOps 时,您可能不会立即想到它如何适合您现有的工具类别。原因是它不能替代当前的监视、编排、支持服务或日志管理工具。相反,它牵涉所有领域和工具,在所有领域和工具中集成和使用信息。它输出的信息还有助于了解每个工具的同步情况。
这些工具单独来说,一个个本身都是有价值的。不过,工具之间的隔断导致用户无法适时访问正确的信息。AIOps 灵活地将各种不全面视图整合成综合性视图,从而有助于 ITOps 团队了解整体情况。
尽管 AIOps 与 ITOps 有云泥之别,但它并不是大数据和机器学习的首次应用。当股票经纪人从手工交易转向机器交易时,他们也采用了类似的机械学习方法。社交媒体还长期在诸如 Google Maps、Yelp 和 Waze 之类的应用程序或 eBay 和 Amazon 之类的在线市场中使用机器学习和分析。
这些技术在要求实时响应不断变化的条件和用户定制需求的环境中,体现出了高度可靠性和广泛有效性。
与机器学习技术相比,人工智能在 AIOps 中的应用前景更大有可为。当前,简单的自动化或将自动化与机器学习结合就能解决您当下紧迫的用例。人工智能及其未来应用场景仍在演变,未来可期。无论如何,企业务必在当前存在的 ITOps 上打下坚实的 AIOps 基础,然后在此基础上开始实施人类行为建模。
ITOps 人员由于工作的保守性质,无法快速适应 AIOps 环境。他们的职责是确保业务照常运行,维持企业基础架构的稳定性。不过,随着 AIOps 广泛应用的新兴趋势抬头,越来越多的 ITOps 工作组不得不在短时间内适应新的 AIOps 技术和战略。
结论
这份权威的 AIOps 指南将帮助您确定它对于贵公司的适用性,以及何时整合该技术以及以何种方式使用。除此之外,建议您关注 AIOps 的最新发展态势。种种迹象表明,这项创新技术已蓄势待发。
想将 AIOps 整合到企业中?Veritas 可助您一臂之力。立即联系我们,接收我们代表的来电。
Gartner,AIOps 的提出者和行业最前沿顾问,曾 14 次评价 Veritas 为数据中心备份和恢复的领导者。获取以下报告,并在此处了解有关 Veritas NetBackup 的更多信息。
APTARE 运维数据透视分析服务平台 (APTARE IT Analytics) 是唯一一款能统一洞察本地和混合云环境中所有主要存储、备份和虚拟基础架构的 IT 分析软件。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/notes/297216.html