近年来,伴随数字化转型的不断深化,保险业的全域数字化正逐步贯穿产品、销售及售后等全业务流程,庞大的业务量导致其业务系统架构日趋复杂、数据量呈爆发式增长。与此同时,“传统核心业务所呈现的稳态性”与“新业务所显现的敏态性”也对保险业IT系统的双态运维提出了更高要求。在此背景下,智能化运维转型成为保障系统稳定、敏捷运行的利器,不仅可大幅提升用户体验,还能够切实保障与推动保险业务持续、快速、健康发展。其间,如何更好地应用大数据技术和算法成为实现智能化转型的重要课题,而开展运维数据治理则是开启智能运维新时代的关键钥匙。
一、保险业运维数据治理挑战
对于保险业这种数据密集型行业而言,基于数据可以极为直观地感知、了解运维业务趋势,而要使运维数据真正成为重要的决策依据,首先需要对其进行规范化治理。针对这一目标,本文尝试梳理了保险业运维数据治理面临的关键挑战。
1.缺乏运维数据理论
在数据治理方面,目前国内外已经有大量成熟的模型和方法论,如国际标准ISO/IEC38505-1、DAMADMBOK2数据管理知识体系指南、DGI数据治理模型等,但上述模型和指引大多是面向业务数据治理实践,很难直接用来指导智能运维体系建设,尤其在运维数据治理方面,需要更成熟、适配性更强的方法论来作为实施依据。
2.运维数据质量有待提升
传统模式下,运维数据普遍存在数据源多、离散性高、数据结构不一致以及数据获取困难等问题,严重影响了运维数据的准确性、完整性和可靠性,难以支撑智能运维场景下的系统问题排查、趋势分析与问题干预等需求。
3.运维数据标准亟待规范
以往保险机构在选择、制定运维数据标准时,因缺少系统性、全局性视角作为统筹,经常导致最终标准难以指导信息系统建设。此外,在数据标准的落地过程中,也时常缺少配套的工作机制与流程,存在数据标准化程度不高、数据权威性不够等问题,极易导致数据标准落地时脱离组织现实的数据治理现状。
4.运维数据安全保障体系有待完善
目前,大多数保险机构仅使用了堡垒主机对运维用户进行管理,安全防护能力不足、安全策略缺失,运维数据存在泄露风险。同时,因数据资产管理能力不足,在数据泄露后很难进行精准溯源及追责,而且也缺乏有效的数据安全风险识别机制,数据安全风险很难做到事前防范。
5.需搭建综合性运维数据平台
数据治理通常要贯穿从数据采集、处理、分析、应用到归档销毁的全生命周期,因此,运维数据治理需配套建设功能完备、扩展性强的高质量数据平台工具,即需要搭建包含元数据管理、主数据管理、数据标准管理、数据质量管理等核心功能的综合性运维数据平台。
二、保险业运维数据治理总体框架
1.强化理论指导
针对运维数据与业务数据之间的差异,打造专门的运维数据治理模型已成为业界共识。为此,中国电子工业标准化技术协会发布了《信息技术服务智能运维第1部分:通用要求》,提出了运维数据管理的八个能力项,旨在指导和帮助IT部门开展数据管理活动,进而降低运维成本、提升运维效率。与此同时,《信息技术服务智能运维第2部分:运维数据治理》编制工作也已经开始,并针对业务数据和运维数据的特点及差异,明确提出了运维数据治理框架、运维数据价值实现途径、运维数据安全和风险控制要求等内容,为运维数据治理和智能运维场景高效落地提供了指引和依据。
2.完善管控机制
运维数据管理主要指从数据质量规划、数据质量度量、数据质量监控、数据质量改进等多方面持续完善管控机制,并分步骤、分阶段、分层次、分场景逐步开展数据治理:一是制定数据质量规划,明确数据质量管理目标,约定运维数据质量管理规则,提出数据全生命周期的管理要求等。二是采用量化管理机制,从“完整性、一致性、准确性、唯一性、关联性、及时性”等六个维度设计数据质量度量体系,并针对不同等级和优先级制定数据管理策略。三是从事前预防、事中监督、事后跟踪等三方面不断强化数据监控。四是根据数据质量评估结果,对数据模型、数据结构、数据规范、管理机制及流程等进行持续优化和改进。
3.制定治理标准
数据标准作为数据质量控制的准则、数据模型搭建的参考以及信息系统设计的依据,应在其编制、落地过程中全程把控标准质量:一是在编制与规划阶段,应通过梳理各类制度章程、国家标准等,将所有相关规范具象到数据标准定义的信息项中,并确保上述标准满足企业的应用、管理需求和数据战略要求。二是在落地与实施阶段,应结合价值主张、标准化范围、投入分析、执行方案、技术赋能、标准运营等要素,明确数据标准化的价值和目标,并在数据标准的规划落地过程中充分做好影响评估,同时建立良好的沟通协作机制。
4.建立保障体系
运维数据安全治理是指围绕数据全生命周期,自上而下建立数据安全保障体系:一是健全运维数据安全管理机制,建立一套涵盖不同管理粒度、适用不同数据对象(分类分级)、覆盖所有治理过程的管理制度体系;建立运维数据风险监测预警机制,定期开展数据安全风险应急防范演练;建立常态化数据安全专项审查行动,摸底调查IT运维面临的数据安全风险等。二是保障数据合法合规使用,加强对相关规范政策的解读和研究,及时优化内部数据相关的安全管理机制;积极推进同业最佳实践的沟通交流,主动参与数据安全标准编制工作;主动构建数据安全技术平台,确保数据安全管理规定有效落地等。
三、保险业运维数据治理实践
当前,用户群的日益庞大以及To C业务的快速增长,不仅使保险业IT运维面临的压力不断增大,也对保险业从业人员的技术体系、专业知识、行业技能等提出了更高要求。为应对上述挑战,某保险集团公司(以下简称“公司”)自2017年开始即积极探索智能运维体系建设路径(如图1所示),并依托于自主研发的智能运维平台解决大量运维痛点问题,显著提升了工作效率。与此同时,为实现运维数据和运维应用场景之间的双向驱动,公司从技术与管理两个维度重点突破,摸索出了一条契合自身发展战略的运维数据治理之路。
图1 某保险集团公司智能运维体系建设路径
1.建立配套制度与规范
在组织机构建设方面,公司分别成立了运维数据管理和治理领导小组、运维数据管理团队和运维数据实施团队。其中,领导小组侧重制定运维数据的顶层设计和战略规划,管理团队负责数据治理保障机制(制度规范)的搭建和工作成效的评估考核,实施团队则负责依据运维数据治理相关制度规范落实、执行各项工作。
2.打造运维数据服务中心
在智能运维领域,数据、算法和计算能力构成了智能运维的三大基础要素,其中,数据质量决定了智能运维的成败,算法质量决定了智能运维结果的上限,计算能力则是智能运维实现的基础,三大要素共同服务于智能运维场景,而智能运维场景又是运维价值的直观体现。结合上述理念,公司创新提出了运维数据服务中心的建设构想,其逻辑架构如图2所示。
图2 运维数据服务中心逻辑架构
3.构建运维数据总线平台
针对运维数据来源众多、监控设备杂乱以及数据格式不一致等问题,公司搭建了运维数据总线中台来提供统一、规范的运维数据服务接口:一是面向数据接入、数据建模、数据消费等统一了各类数据格式,并针对性展开数据建模,通过全面标准化屏蔽了设备原始数据的格式差异。二是实现基于数据类型来选择“消息中间件”,如指标和日志(并发高、数据量大)通过Kafka消费,告警事件类数据通过RabbitMQ消费等。三是每个数据中心均单独部署组件负责本地数据的读写,确保数据中心在出现网络抖动或断链时仍能保持业务连续性。四是基于总线平台和数据服务构建了智能运维场景集合,通过运维数据治理有效支撑了智能运维场景落地。智能运维场景示例如图3所示。
图3 智能运维应用场景示例
4.建设智能运维平台
智能运维平台建设重点覆盖了识别业务运行情况、提升业务支撑能力、告警工单收敛、加强风险管控等四个方面。其中,识别业务运行情况是指对公司关键业务量(寿险出单量、车险报案量、车险结案量、承保出单量、产寿险话务呼入呼出量等)进行预测,并根据业务趋势来预测容量和性能风险,提前做好生产应对措施。提升业务支撑能力是指通过智能机器人实现场景式报障服务与智能问答交互,持续提升用户体验。告警工单收敛是指通过告警的汇聚收敛、根因定位等功能,有效降低运维工作量,促进业务快速恢复正常。加强风险管控是指通过检测日常数据运行交易的异常情况,及时采取熔断措施,有效防范风险事件。
四、总结与分享
基于多年摸索与实践,依托高效率、精细化、多维度的数据治理工作,公司在智能运维实践中取得了良好成效,本文尝试总结了运维数据治理的相关经验供同业参考。
1.充分运用数据双重属性
面向智能运维的很多运维数据具有双重属性(业务属性和技术属性),而这些数据正是业务人员和技术人员的重点关注对象。以保险行业为例,运维任务与保险业务关联度较高,通过运维数据可以预测各类出单、报案、结案量等信息,也可以提前预测容量和告警性能风险,进而降低运维保障压力,实现安全、稳定、高效运维。
2.数据治理与需求相融合
运维数据治理需融合场景与需求,不能为了治理而治理。数据治理的目的是支撑智能运维场景,因此要有计划、有针对性地治理各类数据。例如,在保险业务量预测方面,可以通过分析应用场景、提升数据挖掘能力,以及持续验证、训练和迭代数据模型,不断提升模型“聪明度”,直到算法模型符合预设要求。
3.持续调优智能化场景
智能运维需要针对具体场景的特殊性进行持续调优。举例来说,保险业务量非常容易受节假日、营销活动等不确定因素的影响,智能运维需参考上述因素、变量间的数据关系,不断生成、优化可匹配特殊场景的模型,以最终达到生产实用的要求。
4.数据与业务同步治理
数据治理需要和公司业务流程相结合。现阶段,保险公司的业务流程非常繁杂,每笔业务关联的系统数量较多且关联度较高,并存在训练数据噪点繁多、数据系统间缺乏关系网络等问题,急需通过加强数据管理工作来逐步解决。
综上所述,运维数据治理不仅需要适配性强、落地性强的顶层框架模型作为方案指引,也要以功能全面、可扩展性强的运维数据平台作为基座,才能切实解决数据质量、数据安全、数据标准化等问题,从而更好地理解、管理和使用运维数据,形成全组织统一的数据文化,最终让运维数据更加好用、用得更好。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/tech/cloud/288455.html