大运维之统一应用运维管理平台建设

对于多业务场景多系统之间的复杂大运维系统,必须有一套完整的运维平台来保障,对于大运维系统的应用运维管理平台如何建设,我们就来聊一聊。

目前大运维系统涉及30+服务开发厂家,100+独立子系统,5000+资产,基于此业务场景下,初期我们遇到了很大的运维管理和保障难题,主要困难点在于:

(1)资产信息不明确,作为运维总管理方,对所有的资产使用人不明确,资产用途不明确,资产数量不明确

(2)作为运维总管理方,对所有资产无法做到快速的信息查询和定位

(3)出现安全风险,无法第一时间获取到相关负责人,无法第一时间做安全问题修复

(4)多业务系统线上的运维情况不明确,运维服务可用性及运维服务质量无法做数字化评估

(5)各自业务系统存在分散不统一,运维平台的建设能力技能水平参差不齐,没有统一的入口和标准等等

在综合分析了目前的业务运维情况下,我们自主进行了统一应用运维管理平台的设计和开发,定义统一运维管理运维平台作为各项目系统的统一入口,实现运维统一化、规划化、标准化,通过和统一运维管理运维平台的对接,实现在各项目系统运维过程中涉及到的多套系统、平台、工具、文档等统一入口化,运维人员一个账号信息可获取到原多套系统多个平台的运维数据;通过平台的对接,实现各类审批流程标准化,将复杂的各类运维流程规范进行标准化对接和输出,实现运维整体流程标准、可用;通过和各类平台、工具的对接,将线上的运维数据进行实时汇总展示分析,把原来不透明的运维数据通过图形等方式将运维数据实时呈现,实现运维整体数据透明、可视;通过线上数据的实时汇总分析,对线上数据进行可视化分析后,对整体运维的稳定性和可用性提供数据支撑,提前发现线上问题,为运维提供可靠的数据支撑判断;通过平台的对接,实现各业务系统的基础资源监控报警数据透明化,对各业务系统的部署物理拓扑进行实时的展示,对各业务系统的网间进出流量做和监控和展示,实时对线上各系统的监控和流量情况做展示分析。

总体框架如下:

大运维之统一应用运维管理平台建设

运维管理平台包含基础资源及相关业务系统,数据采集,运维平台模块信息,功能展示等组件构成,实现从基础资源展示到监控链路、监控报警、链路拓扑、流量报警、运维数据分析、故障复盘、运维服务质量考核等运维全流程一体化的运维过程。

整体平台模块部分主要包含用户管理、权限管理、角色管理、项目管理、部门管理、服务商管理、资产管理、工单管理、故障管理、审计管理、日志管理、安全管理、统计分析管理、监控管理、主动性探测管理、成本管理、考核管理等部分,每个模块部分做到按照不同用户角色和身份进行授权,实现权限分级管理。

(1)角色管理,针对不同的运维管理平台的人员设定不定的权限管控,分级分权,按照特定的需求对特定的人群开放不同的权限规则,面向的人员有:运维管理人员、服务商项目运维人员、超级管理员、数据监察员。运维管理人员面向的是运维管理方,分为读写和只读权限,读写权限给到直接的运维管理人员,只读权限分配给需要管理但是不能查询的管理人员,服务商项目运维人员面向的是各项目系统的一线运维技术人员,数据检查员面向整体数据的督查管理方,超级管理员对所有平台的模块进行管理。

(2)用户管理,根据各项目系统提交的申请,为各项目系统的运维人员提供登录用户开通,新增用户设置一个初始密码,首次登录提示进行密码强制更新,在创建用户的同时,为每个用户选择角色身份,和所属的项目厂家系统做关联绑定关系,同时对新开通的用户进行启用操作,后续人员离职或调整,在用户管理部分针对具体用户做禁用登录操作。

(3)项目管理,通过和后端系统平台的后台对接,实现所有项目系统的名称进行同步数据拉取到运维管理平台,针对同步过来的项目信息进行整合汇总,添加厂家信息,业务域名信息,对应一线运维负责人,系统厂家运维负责人信息,项目系统的研发负责人信息及项目相关的认领状态是已认领还是未认领状态。通过项目信息的认领后续可自动关联资产、工单、故障等信息,实现数据自动归集到责任的厂家和运维人员。

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/200549.html

(0)
上一篇 2021年11月22日 17:04
下一篇 2021年11月22日 17:17

相关推荐

发表回复

登录后才能评论