2018年,AIOps智能运维俨然成为中国运维市场的风口。在这一年里,传统ITOM/ITSM厂商、新兴APM/NPM厂商、各大云厂商纷纷转战智能运维,描绘出种种智能运维发展蓝图和未来产品。而在各种运维大会上,智能运维也成了焦点话题,专家学者们不断向业界灌输智能运维的好处,似乎有了智能运维就能立刻破解伴随数字化转型而来的IT规模和复杂度暴增的管理难题,甚至能逐步取代运维人员,实现NoOps无人化运维。
智能运维到底有没有这么神奇?什么才是真正的AIOps智能运维?AIOps智能运维到底能给企业带来哪些能力?本文将为您逐一解读。
什么是AIOps智能运维
早在2016年之前,著名IT研究机构Gartner在其词库就添加了AIOps这一词条,彼时AIOps是Algorithmic IT Operations的缩写,按照字面理解,AIOps是一种基于算法的运维方式。时至今日,仍有互联网大厂和算法界专家把Algorithmic算法作为AIOps智能运维的核心价值。
清华大学裴丹教授对AIOps的定义是:AIOps将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据中不断地学习,不断地提炼并总结规则。
然而,经过近3年全球AIOps市场的发展和沉淀, Gartner在2018年11月发布的最新版《Market Guide for AIOps Platforms》报告中把AIOps的含义由算法升级为智能,即Artificial Intelligence for IT Operations,并为AIOps平台作出如下定义:“整合大数据和机器学习能力,通过松耦合、可扩展方式去提取和分析在数据量(volume)、种类(variety)和速度(velocity)这三个维度不断增长的IT数据,为所有主流ITOM产品提供支撑。AIOps平台够同时使用多个数据源、数据采集方法及分析和展现技术,广泛增强IT运维流程和事件管理效率,可用于性能分析,异常检测,事件关联分析,ITSM和自动化等应用场景。”
IT行业的领头羊IBM在《金融行业智能运维实施建议白皮书》开篇明义:“AIOps就是希望通过人工智能的方式,对系统运行过程中所产生的数据,运用AI和算法、运筹理论等相关技术,对运维数据进行分析,进一步提升运维效率,包括运维决策、故障预测和问题分析等的新一代运维手段和方法。”
国内智能运维的创新公司云智慧,通过3年的探索和实践,率先实现了AIOps的产品化和场景化。云智慧CEO殷晋对AIOps的理解更加贴合中国市场和数字化转型企业的需求:“AIOps与其说是产品,不如说是一种理念和策略。通过以数据为基础、算法为支撑,场景为导向的AIOps平台,为企业现有运维管理工具和管理体系赋予统一数据管控能力和智能化数据分析能力,全面提升运维管理效率。现阶段AIOps的目标不是NoOps,而是BetterOps,通过更高效的运维帮助企业快速洞察人力难以企及的故障和问题,准确预测风险,化被动运维为主动运维。”
AIOps智能运维是突然出现的吗?
在过去二十年里,人工智能技术的发展间歇性影响了ITOM的进步,而AIOps只是这种影响的最新例证。因此,对于传统企业来说,智能运维并不是一个全新的理念,而是IT运营分析/运维管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。AIOps智能运维平台以ITOM/ITOA系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。
市面上流行的ITOM平台,其核心组件缺少大数据采集、分析和机器学习的能力,需要AIOps平台予以完善。AIOps智能运维平台能够接入不同业务系统、监控系统、管理系统的海量IT数据,并运用各种算法进行快速分析、学习甚至预测。立足于AIOps,IT部门可以获得强大的IT决策和运营管理能力,并能对业务质量和用户体验进行准确检测和持续优化。
目前,国内顶级互联网及ICT企业,如阿里、腾讯、华为、百度等,都成立专门的部门对AIOps体系开展深入研究并逐步落地,甚至达到某种程度上的NoOps。但对于数字化转型中的国内大中型企业来说,互联网模式的AIOps平台无法满足双态IT环境、混合云环境、IoT场景下复杂事务流程的统一管控和效率提升需求,开放度更高、工程化能力更强、应用场景更聚焦的专业AIOps平台解决方案才是企业客户的首选。
AIOps智能运维平台选型的必备能力
现阶段,数字化转型的IT挑战在于一方面要控制IT成本,另一方面又要提供支持更高复杂度的运维管理能力。传统ITOM产品在处理海量、多种类和高速数据时常常会遇到极大的压力。更重要的是,这些监控工具无法提供横向业务追踪和根因定位所需的多系统数据。
数字化业务要求IT运维提供更快的响应速度和更高的处理效率,因此AIOps智能运维平台需要提供如下能力:
- 提供独立、开放的历史/实时数据采集、算法分析平台,整合IT数据和业务指标数据;
- 提供告警消噪(包括告警抑制、告警收敛等),消除误报或冗余事件;
- 提供跨系统追踪和关联分析,有效进行故障的根因分析;
- 设定动态基线捕获超出静态阈值的异常,实现单/多指标异常检测;
- 根据机器学习结果,预测未来事件,防止潜在的故障;
- 直接或通过集成启动解决问题的动作;
AIOps平台主要通过整合分析IT基础设施、APM、NPM、日志、数字化体验监测数据,来提升IT运维流程的效率,而AIOps平台能力的ROI多是基于平均故障接手时间(MTTA)和平均故障修复(MTTR)时间这两个指标的降低进行评估的。
主流AIOps平台推荐
AIOps的发展获得了业界的一致看好,Gartner同样给出大胆预测:未来2到5年内AIOps将扩展到IT服务管理和自动化运维领域,到了2022年,部署AIOps平台的大型企业数量将从如今的不足5%,迅速提升到40%左右。
目前,AIOps市场可以说是雾里看花,很多厂商都宣称拥有自己的AIOps产品。下面,我们遴选了五家国内外已经实现智能运维工程化的解决方案商,从他们的平台能力和应用场景等维度进行横向对比,希望对企业AIOps选型提供帮助。
注:以上部分数据来自Moogsoft《Is 2018 the Year of AIOps?》
IBM、BMC等ITOM企业,在传统IT架构的理解和人员规模等方面拥有强大的实力,而新兴的软件服务企业如Moogsoft、Splunk、Cloudwise等公司虽然规模不大,但是专注于AIOps相关领域的研发,实力同样不容小觑。BMC和IBM的AIOps解决方案主要满足传统IT场景下的IT资源管理、IT服务管理、IT 自动化等需求,针对的用户群体也是以L1/L2级运维工程师为主,这也是此类企业和诸多由ITOM/ITSM转型AIOps的服务商多年来积累的优势。而Cloudwise、Moogsoft和Splunk自诞生之时恰逢互联网经济大潮的兴起,其产品和解决方案更适合数字化和混合IT场景和现代企业的需求。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/notes/297198.html