面向 IT 运营的智能运维 AIOps一词由 Gartner 创造,是指应用人工智能 (AI) 技术,例如自然语言处理和机器学习模型,自动执行和简化运营工作流程。
具体而言,智能运维 AIOps 使用大数据、分析技术和机器学习能力执行以下操作:
- 收集并汇总由多个 IT 基础架构组件、应用需求与性能监视工具以及服务工单系统持续生成的海量数据
- 智能筛选,从”噪声”中确定”信号”,识别与系统性能和可用性问题相关的重要事件和模式。
- 诊断根本原因,并将其报告给 IT 和 DevOps 团队,以便他们快速做出响应和采取补救措施,或在某些情况下无需人工干预,可自动解决问题。
通过将多个单独的手动 IT 运营工具替换为单一的智能自动化 IT 运营平台,智能运维 AIOps 使 IT 运营团队能够更快地作出响应,甚至主动处理慢速和中断事件,从而大幅减少工作量。
智能运维 AIOps可以缩小下面两大对立面之间的差距:一方面是日益多样化、动态且难以监控的 IT 环境,另一方面是用户对应用程序性能和可用性几乎或根本无中断的期望。 大多数专家都认为智能运维 AIOps 是 IT 运营管理的未来形式,而且随着企业日益关注数字化转型计划,这种需求会只增不减。
每个组织的智能运维 AIOps 旅程不同。 贵组织在评估自己在智能运维旅程中所处的位置后,可以开始整合工具,帮助团队观察和预测 IT 运营问题并快速采取行动。 当考虑在组织内采用哪些工具来帮助改进智能运维 AIOps 时,必须确保这些工具具有以下功能:
可观测性:可观测性是指一些软件工具和实践,它们可用于采集、汇总和分析分布式应用以及运行应用的硬件和网络所产生的持续性能数据流,能够更高效地监控、诊断和调试应用,满足客户对产品或服务体验的期望、服务级别协议 (SLA) 和其他业务需求。 这些解决方案通过数据汇总与整合,提供有关应用、基础架构和网络的整体视图,但并不采取纠正措施来解决 IT 问题。 虽然这些解决方案不会采取纠正措施来解决 IT 问题,但会跨 IT 领域的多种数据源收集和汇总 IT 数据,向最终用户发出潜在问题提醒,之后由 IT 服务团队实施必要的补救措施。 这些工具提供的数据和相应的可视化效果非常有价值,IT 组织需要基于它们来做出决策并恰当解决技术问题。 若需要运营人员手动更新运营系统才能实现资源优化,那么这种优化在需求动态变化的情况下可能无法展现优势。
预测性分析:智能运维 AIOps解决方案可以分析和关联数据,从而获得更好的洞察和自动化操作,帮助 IT 团队始终掌控日益复杂的 IT 环境,确保应用的性能。 对于任何 IT 运营团队来说,能够关联和隔离问题无疑是一大进步。 它有助于减少组织检测尚未发现的问题的时间。 组织将受益于自动异常检测、警报和解决方案建议,从而降低总体停机时间以及事件和凭单的数量。 动态资源优化可以使用预测分析进行自动化,确保应用程序的性能,即使在高需求变化时期也可以安全地降低资源成本。
主动响应:一些智能运维 AIOps解决方案可主动响应意外事件,例如性能下降和运营中断,实时地将应用性能和资源管理结合在一起。 通过将应用性能指标输入到预测性算法中,就可以发现与各种 IT 问题相关的模式和趋势。 智能运维 AIOps 工具能够提前预测 IT 问题,因此可以启动相关的自动化流程进行响应,快速纠正问题。 组织可从智能自动化中受益,例如缩短平均检测时间 (MTTD)。
这种技术是 IT 运营管理的未来,有助于企业改善员工体验和客户体验。 智能运维 AIOps 系统不仅可以确保及时解决 IT 服务问题,还可以为 IT 运营团队提供安全网,解决由于人为监督疏忽而可能导致的问题,例如组织孤岛、团队资源不足等。
智能运维 AIOps 的主要优势在于,它可以帮助 IT 运营人员发现、处理和解决性能下降和运营中断事件,而且速度比手动筛选多个 IT 运营工具发出的警报更快。 因此,智能运维 AIOps 具有以下几大优势:
- 缩短平均解决时间 (MTTR):通过消除 IT 运营数据中的”噪声”,并将多个 IT 环境中的运营数据关联起来,AIOps 能够比人工操作更迅速、更准确地确定根本原因并提出解决方案。 因此,组织可以设立并实现以前无法想象的 MTTR 目标。 例如,Vivy 的 IT 基础架构将公司应用程序的平均修复时间 (MTTR) 缩短了 66%,从三天缩短为一天或更短。
- 降低运营成本:自动发现运营问题和重新编程的响应脚本有助于降低运营成本,更高效地分配资源。 这也将人力资源解放出来,让工作人员从事更具创新性和更复杂的工作,从而改善员工体验。 Providence 通过优化节省了超过 200 万美元,同时在高峰期确保了应用性能。
- 可观测性和协作能力提高:智能运维 AIOps 监控工具中的可用集成有助于跨 DevOps、ITOps、治理和安全功能进行更有效的跨团队协作。 更出色的可视性、沟通能力和透明度可帮助团队改进决策,加快问题响应速度。 例如,Dealerware 提高了其基于容器的架构的可观察能力,在疫情期间改进了应用的性能,将交付延迟缩短了 98%。
从被动管理转变为主动管理,再升级为预测性管理:借助内置的预测性分析功能,智能运维 AIOps 不断学习,以发现最紧急的警报并确定其优先级,使 IT 团队能够在潜在问题引起性能下降或运营中断事件之前解决它们。 Electrolux 通过缩短平均检测时间 (MTTD),将 IT 问题的解决周期从 3 周缩短到一小时,并通过自动执行维修任务,每年节省 1,000 多个小时。
智能运维 AIOps 结合大数据、高级分析和机器学习能力,适用于以下用例:
- 根本原因分析:顾名思义,根本原因分析用来确定问题的根本原因,以便采取适当的解决方案进行补救。 通过确定根本原因,团队可以避免与解决问题症状有关的不必要工作,直击核心问题。 例如,智能运维 AIOps 平台可以跟踪网络中断的来源并立即解决,还可以确定保护措施以防止将来出现类似问题。
- 异常情况检测:智能运维 AIOps 工具可以梳理大量历史数据,发现数据集中的非典型数据点。 这些异常值是发现和预测问题事件(如数据泄露)的信号。 这种能力可帮助企业避免代价高昂的后果,比如负面公关、监管罚款和消费者信任度下降。
- 性能监控:现代应用通常由多个抽象层分隔,因而很难了解哪些底层物理服务器、存储和网络资源支持哪些应用。 智能运维 AIOps 有助于弥合这一差距。 它作为云基础架构、虚拟化和存储系统的监控工具,能够报告使用情况、可用性和响应时间等指标。 此外,它还利用事件关联功能,整合与汇总信息,帮助最终用户更有效地使用信息。
- 采用云/迁移到云:对于大多数组织而言,采用云技术是个循序渐进的过程,不可能一蹴而就,否则会出现混合多云环境(私有云、公有云、多个提供商),并且存在多种相互依赖关系,而这些关系变化得太快太频繁,难以记录。 通过直观呈现此类相互依赖关系,智能运维 AIOps 有助于大幅降低云迁移和混合云方法的运营风险。
- 采用 DevOps:DevOps 赋能开发团队,提供和重新配置基础架构以便加速开发,但 IT 部门仍需要管理该基础架构。 智能运维 AIOps 提供了 IT 部门支持 DevOps 所需的可视性和自动化功能,而无需完成大量额外的管理工作。
了解智能运维 AIOps 工作方式的最简便方法是查看每一种 AIOps 组件技术(包括大数据、机器学习和自动化)在这个流程中起到的作用。
智能运维 AIOps 利用大数据平台将孤岛式 IT 运营数据、团队和工具 汇总在一处。 这些数据包含:
- 历史性能和事件数据
- 流式实时运营事件
- 系统日志和指标
- 网络数据,包括包数据
- 事故相关数据和工单
- 应用需求数据
- 基础架构数据
然后,智能运维 AIOps 会应用重点分析和机器学习功能:
- 将重要事件警报与”噪声”分离:智能运维 AIOps 梳理 IT 运营数据,并将信号(即重要的异常事件警报)与噪声(其他数据)分离。
- 确定根本原因,提出解决方案建议:智能运维 AIOps 可将异常事件与环境中的其他事件数据相关联,以确定中断或性能问题的原因,并提出补救建议。
- 自动响应,包括实时、主动地解决问题:智能运维 AIOps 至少可以自动将警报和建议的解决方案传送给相应的 IT 团队,甚至可以根据问题的性质和解决方案来组建响应团队。 在许多情况下,它可以处理机器学习的结果,触发自动系统响应,甚至是在用户意识到问题之前实时解决问题。
- 不断学习,改进问题处理方式:AI 模型还可帮助系统了解和适应环境的变化,例如 DevOps 团队提供或重新配置的新基础架构。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/309139.html