运维领域,没有企业不在谈AIOps和如何建设AIOps,但是很多企业会缺少深度思考:AIOps的建设去向何方?以什么样的模式来建设?需要具备哪些基础能力?以及最为重要的是:我们的组织如何准备?
甚至部分企业开始考虑,到底是给AIOps运维团队提供一套更好用的运维工具,让运维人员轻松应对,还是培养运维人员的能力,有新的上升通道,给业务提供更多价值输出?平台化路线的AIOps体系转型又如何推进呢?本文将深度剖析腾讯蓝鲸在这一方面是如何思考、理解和推进的。
一、腾讯IEG AIOps普及思路
在任何一个企业里面,不管是内部的运营系统还是企业的业务系统,每个版本的生命周期可能都会经历CI/CD/CO阶段,腾讯IEG内部运维体系是从CI领域发展出来的,一开始是传统运维,通过一些运维的小组专门去对接某一个业务团队。
2012年蓝鲸上线,开始了传统运维到运维开发的转型,在这一过程中,蓝鲸主要提供的还是平台化的快速工具来辅助传统运维,但随着运维开发转型的推进和蓝鲸体系的加持,运维的工作边界开始扩展,蓝鲸也由此向CI/CD/CO领域延展,例如研发平台的原子能力提供使得运维可以在CI领域组装出各种各样的研发类SaaS应用,蓝鲸基础计算平台的上线为运维提供了大数据处理能力。
随着业务不断的迭代以及智能化的推进,运维的工作场景不再局限于故障处理,工作边界也不限于保障质量。在蓝鲸平台之上,运维已经从CD领域延展到CO进行运营支撑类场景,甚至可能影响到业务,达到以运维促进业务的效果,在此过程中同时关注在质量、效率、成本、安全等领域。随之而来的便是新技术的应用,运维人员和运维开发人员开始尝试在日常工作中真正使用AI的能力解决问题,并普及到CI/CD、CO所有场景中。
1. 团队建设
AIOps建设需要具有AI开发能力的人员,在腾讯IEG将这个角色称为运维AI工程师。鉴于AI开发所需的专业化技能,很多企业组建运维AI工程师团队会直接招聘数据科学与机器学习领域专业人才,这种做法简单快速,但是也存在隐患,就是运维团队与AI团队割裂的问题。运维人员不懂AI,而AI人员同样不懂运维,更严重的是责任的隔离,运维团队只会依赖AI团队提供服务,逐渐形成提需求的模式, AI团队的规模会成为AIOps建设的瓶颈,很难达到普及的程度。
第一阶段
我们的做法是运维AI工程师从运维开发团队中转型而来,与初期的传统运维转型运维开发思路相同。AI是有门槛的,但是经过一系列的职业发展指导、培训和筛选,以及实际工作锻炼,我们已经组成了30多人规模的运维AI工程师团队,这些人员具备代码建模解决运维问题的能力,并且都是由运维工程师转型, 有丰富的业务运维经验,直至今天,运维AI工程师在建设AIOps场景的同时,也都会负责具体业务的运维工作。这样我们做到了集AI与Ops于一人,为运维打开了智能化发展通道,从而使运维获得了新的价值输出方向。
在有了运维AI工程师团队之后, 直接的问题就是如何快速提高AIOps建设人员的比例?因为AI开发过程中,运维AI工程师的黄金价值输出阶段在于场景拓展,而一但场景形成较成熟的方案,就会进入业务对接、线上运营与自定义需求的定向支持阶段,此类工作具有较高的重复性、定制化与沟通成本,运维AI工程师交付的场景越多,就会面对越多的支持性工作, 这也是很多AIOps开发团队在进入场景运营之后往往会有研发人员流失的原因。
第二阶段
所以AIOps运维转型的第二阶段,就是要基于平台能力,让运维AI工程师带动运维工程师,一起参与到AIOps建设工作中来,提高AIOps建设人员比例。运维AI工程师聚焦于场景拓展工作,一但场景经过验证,便固化为平台上的通用场景解决方案,此时运维工程师可以将此通用场景解决方案应用于具体的运维场景之中,并基于平台负责此场景应用的运维与监控。
更重要的是,运维工程师作为场景的最终用户,可以根据业务理解对于场景效果做出最直接的评估与反馈, 使用平台能力根据反馈数据对于场景进行持续训练,把通用场景逐渐优化成贴近具体业务场景需求的定制化场景模型,成为AIOps生态的直接贡献者。进而,随着运维工程师逐步深入参与具体场景建设,也会在平台工具的引导下熟悉AI开发过程,促进其向运维AI工程师转型。
整体路径
整体的建设路径:把传统运维工程师一方面转换成有大数据开发能力的数据运维工程师,基于基础计算平台做数据建设,为AIOps提供数据基础。运维AI工程师开拓场景,在平台上沉淀成通用性的场景,再将通用性场景建模的能力提供给所有的工程师,应用到所有的细分领域中,实现场景化的普及。
2. 实践思路
AIOps在腾讯内部的三层建设思路:
第一层:
在运维工作中使用AI能力解决实际问题,普及到CI/CD、CO场景中。
第二层:
通过平台能力,培养运维AI工程师,并通过他们撬动更多运维工程师参与到AIOps场景建设。
第三层:
人员和功能具备之后,开拓运维场景,顺应环境的瞬息万变,实现长期输出业务价值。
结合以上理论思路,腾讯AIOps在内部推进建设的实践路径是怎样的呢?
运维日常工作面临的新挑战,工作边界的扩展,使得运维环境变得更复杂,此时引进高级平台工具赋予运维团队新的能力,在此前提之下,我们也验证了AIOps的确对运维有质变的推动力,我们希望在腾讯IEG内部,AIOps是普及的,在人员、场景和时间三个维度上都可以持续发挥作用。
二、AIOps普及的前置条件
企业在开始着手建设AIOps平台的时候,还需要具备一些相应的前提条件。
1. 完整可靠的数据体系
数据对于AIOps是十分重要的,对于AIOps场景来说,对数据的要求主要体现在完整性和可靠性两方面。
完整性
随着AIOps分析越来越集中化,越来越深入,使用的数据也会更加丰富,这些数据分布在运维的所有的层级里面,从网络到主机,到应用、用户的业务指标都可以被AIOps场景所利用和分析,数据的形态也是多种多样的。AIOps分析的最终诉求是让一个业务全生命过程中的所有的、各种形态的数据,都能够被AIOps场景所使用。
可靠性
一方面,数据的体量是十分巨大的,在海量数据中,如何处理数据丢失、延迟情况,怎样快速发现这些数据问题,以及对于数据本身的质量分析异常值,对于运维监管控以及多样的AIOps场景都是至关重要的。
基于以上两方面,蓝鲸采用基础计算平台,通过建设数据的采集、接入、配置化数据清洗、数据计算、开发等能力,实现全生命周期的资产数据治理能力,让平台支撑运维,能够在平台之上进行标准化数据,协同保护数据安全。
2. 完整可靠的研运自动化体系
在腾讯IEG内部,研运体系由蓝鲸平台来提供,在运维过程中,我们希望所有的AIOps的分析和决策最终都能够影响真实的运维环境,影响业务,帮助提升业务价值。
蓝鲸平台支撑着运维全生命过程CI/CD/CO,每个阶段的沉淀都在平台中,在上层的SaaS也有规范性的沉淀,这一前置条件除了给AIOps提供触达的能力之外,也提供了更好的数据环境,运维人员的所有工作都融合在蓝鲸里面,使得运维数据的完备性有较好的保障。如果企业还存在一些在运维管控之外的工作的话,很可能这些数据就是透支的状态。
3. 组织与人员准备
企业需要成立智能化转型的专家指导组,组织转型的工作,并且把智能化加入运维职业发展的进程中,同时对于团队和个人去做量化、智能化能力的评估,晋升的时候采取通道评审,针对企业运维能力建设规划建立针对性的运维团队,让运维团队和AIOps共成长。
三、AIOps普及的建设要点
1. 覆盖全生命周期的平台化工具支撑
- 在构建了基础的监管控自动化运维工具之后,通过计算平台的加持,可以建设数据开发、数据分析、运营支撑类的工具,形成第一层智能计算能力层面,为运维AI工程师提供最基础的数据探索。
- 工程师在工具支撑下对数据进行分析建模,自定义模型训练等,在业务上线真正提供服务时,这类模型服务可提供第二层面的流式的模型应用、批量的周期性应用。
- 有了第二层能力后,我们认为运维AI工程师建立的AI模型并不等同于AIOps,在对业务提供价值时,我们还需要将多模型串联起来,组合复合模型,为场景提供支撑。
最终,将复合模型与蓝鲸生态中所有资源进行统一编排,形成一整套场景解决方案,为上层运维应用提供端到端的支持,建立流程化、自动化实现能力。
2. 持续学习能力
在工具和一整套生命周期支撑建立起来以后,其中一个十分重要的能力就是持续学习能力。
在实际生产过程中,以异常检测场景为例,运维工程师更倾向于利用反馈数据来调优模型,而不是预先编排异常模式, 所以场景模型需要具备响应运维反馈以持续学习提升的能力。在持续学习模型中,预训练加增量学习的学习范式是最适合AIOps场景普及的,运维AI工程师提供开箱即用的预训练模型,运维工程师通过反馈数据使模型逐渐贴近自己的定制化需求,同时适应随时间而变化的数据环境。
3. 自动学习能力
自动学习是普及AIOps的一剂良药,AutoML对于运维AI工程师与运维工程师都非常重要。随着近年来AutoML技术的广泛应用与产品化,其在AI研发工作中的重要性也逐步凸显,由机器来完成重复性的工作甚至会优于经验丰富的研究员,与此同时,AutoML也在每一天都变得更加“聪明”。
在我们的AIOps建设中,AutoML会作为运维AI工程师日常工作的开发工具,用来替代人工做一些优化问题求解;更重要的, AutoML使得持续训练流水线突破了运维AI工程师的初始化界定,有了更强的适应数据变化能力,极大地增强了运维工程师对于AIOps场景的贡献度。
诚然,自动学习在一定时间内还无法取代运维AI工程师的经验指导,也需要更多的时间和资源来完成工作,但是不可否认,AutoML赋予了运维工程师新的可能。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/208067.html