企业启动中台战略的目的是为了提升效率和解决业务匹配度问题,最终达到降本增效,让一切业务数据化,一切数据业务化。数据业务化的关键要素之一就是先确保数据质量,才能有效的发挥出数据的价值。
那么,如何做好数据质量管理与分析呢?
本文共4000字,全部读完需要10分钟!
关于数据中台,此前已分享了系列文章:
建设中台:难点是技术问题?不!其实是认知问题
详解技术中台、业务中台和数据中台,一知半解最迷惑!
数据库VS数仓VS数据平台VS数据中台,详解数据平台发展的4个阶段
数据中台实战:企业如何进行数据资产管理
企业启动中台战略的目的是为了提升效率和解决业务匹配度问题,最终达到降本增效,让一切业务数据化,一切数据业务化。数据业务化的关键要素之一就是先确保数据质量,才能有效的发挥出数据的价值。
企业有多个业务系统,会产生很多的数据。但是,在大数据中的大对应的就是少,因为越是真实的业务数据,数据量就越大,但是可用的信息比例就越少,实际得到的更多是噪音数据。如果在做数据分析与挖掘时,拟合了噪音数据,那就被数据绑架了。
数据本身是不会撒谎,而是收集样本的维度、数据量会撒谎,毕竟收集数据的质量良莠不齐。然而,数据质量又常常反映的是数据的“适用性”,即数据满足使用时需要的合适程度。
那么,需要如何进行有效的数据质量管理与分析才能满足数据的适用性呢?本篇,按顺序介绍如下:
数据质量问题盘点与分析
数据质量管理方法与步骤
数据质量管理的注意事项
1、数据质量问题盘点与分析
维基百科的定义,数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
企业需要通过有效手段对数据进行管理与控制,改善数据质量问题,从而提升数据质量,发挥数据的价值。数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业一切业务能力的基础。
数据质量四大问题域图
数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。
数据质量问题分析图
从上述数据质量问题的影响因素分析可以发现,数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。
一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。
从信息、技术和流程三个方面的数据质量问题相对来说比较容易控制,可以通过引入数据质量管理体系和数据质量管理系统;对于管理类的数据质量问题,更多往往在于企业人对于数据的理解、支持和认知程度有很大的关系,通常可以从数据规划、数据治理的组织与职责、数据规范的制度和流程等方面去做工程规划。
所以,想要真正从根源上改进数据质量问题,需要从组织管理、业务、技术三个方面同时入手。
2、数据质量管理方法与步骤
在之前一篇【数据中台实战:企业如何进行数据资产管理】
文章中,笔者已经提到过数据资源规划的重要性以及具体的工程方法与步骤。企业做数据资源规划前要对数据进行详细的梳理,只有梳理出企业的数据现状,统计出数据来源,确定数据资源分类,做好数据分析评估,才能找到据资源规划的解决方法。然而,企业做数据资源规划的前提是要保证数据质量。
从方法论的角度来看,针对数据的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果等环节;
从业务的角度来看,针对数据的改善和管理,主要包括业务需求与变更多级评审、规范业务端数据输入规范、稽核业务数据质量等内容;
从技术的角度来看,针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容。
数据质量管理的三要素
1、数据梳理
数据梳理是明确企业数据现状,知道整体数据质量情况,将具有共同的特征数据提取出来,按照主题域的方式进行划分,方便后续的数据管理。先明确企业数据的种类,根据数据的不同分类,选择不同的提升数据质量的方法。
梳理企业目前的数据情况,知道企业现阶段有什么数据,数据来自什么业务系统,数据用在哪里,数据如何存储,数据安全和数据隐私是什么情况;业务可以采集到什么数据;还缺什么数据以及目前企业数据建设的情况,做好数据评估与分析报告,为数据质量提升提供一个全方位的数据现状参考。
业内通常采用以下方式,对数据质量进行评估:
数据质量标准图
数据质量评估图
从业务角度出发,梳理出目前企业数据之间的流向关系、数据的分类情况和数据分类之间的关系,明确什么数据是基础数据,什么数据是由基础数据衍生出来的
只有先梳理清楚目前企业数据情况,才能认清企业数据的情况,从中找到提升数据质量的关键突破点。
2、数据规范
从数据模型和数据标准两个方面定义好数据规范。
数据模型是数据特征的抽象,是获取和明确企业数据需求的方法,也是数据需求分析与建模工作的基础,通过对展现客观事物的信息进行抽象、综合、分类,组织为具有某种结构的数据,对这些数据结构、其相互之间逻辑关系、数据操作方式及约束的描述。在实际的建模过程中,数据模型所描述的内容包括数据结构、数据操作、数据约束三个部分。
数据标准是对数据模型的另一种延伸,是数据资产管理的核心基础,也是对企业数据资产化进行准确重定义的过程。数据标准可以促进企业数据模型落地,对企业业务系统中关键数据进行标准化起到了关键性作用。但是,真正数据标准并不是规范文档、流程文档、制度文档等,而是通过一套由管理规范、管控流程与技术工具共同组成的体系逐步实现数据信息化标准的过程。
在数据模型的落地和推动过程当中,往往会遇到由于各组织人员认知不同、看待问题的角度不同以及其他内外部原因等限制,导致数据在集成与互通的时候会遇到数据不一致的问题。
所以,在做业务系统的数据模型设计之前,企业要设计一套相对标准的数据规范。通过数据标准规范来反向推动业务进行数据收集,解决数据不一致的问题。
常用的策略有以下几种:
1、在需求规划阶段,梳理企业现有的数据模型是否合理,有则改之无则加勉,然后根据现有的模型来设计整体系统的模型,整个过程始终遵循数据标准的规范要求;
2、在数据获取阶段,重点关注数据的安全性与隐私性问题、数据的及时性问题,数据传输等问题;
3、在数据存储和共享阶段,重点关注数据的整合问题,数据的一致性问题,数据的完整性等问题。
3、数据生命周期
数据的生命周期需从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个步骤,是一个不断循环迭代的过程。
企业需要对数据流动的整个生命周期的每个环节进行监控把关,要知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。流动数据的价值远远大于静态数据的价值,只有以业务为中心,才能真正让数据用起来。
数据生命周期图
主要可以从数据标准的规划设计、数据建模、数据质量监控、数据问题诊断、数据清洗、优化完善迭代等方面。比如,当企业元数据、主数据、数据格式、数据校验方式都不一致的情况之下,会导致业务部门对数据进行分析与挖掘的过程中会产生很大的困惑,业务部门需要经过大量的沟通和调查,才能真正理解数据的含义和本质。可以使用数据生命周期的分析思路,在管理和流程上明确数据维护的责任主体,从源头开始就对数据质量进行监控,对关键的元数据、主数据进行统一,将能有效的解决数据质量问题。
◆ 数据需求规划与设计。从需求开始,将数据质量的重要性结合到日常的工作环境中,让数据相关使用人员统一认知,明确知道数据质量的重要性,从需求源头系统开始保证数据质量。比如,涉及到数据需求、研发人员数据库表的设计、数据创建、数据录入、数据存储、数据处理等方面的设计
数据质量体系建设图
◆ 数据质量监控与诊断。结合数据的生命周期,对数据业务生产线中的每个步骤进行监控与检查。根据各个业务线自身的特性梳理出人工业务规则,前期先采用人工规则的方式对数据质量进行核验,建立规则案例库;持续积累核验数据,后期人工规则与机器学习的方式对数据进行检测。比如,采用分组或者抽样的方式,基于数据评估指标体系对一批数据做数据质量的检查,设定阈值和权重,确定数据是否满足一定的质量区间,对数据质量进行全方位监控
◆ 数据质量管理的方法。利用元数据、主数据监控数据使用的情况;基于数据规范与标准,创建统一的数据模型来解决架构设计和数路开发的不一致性;利用数据质量评估报告,迭代优化数据质量,全方面确保数据的完整性、准确性、一致性、及时性。
3、数据质量管理的注意事项
数据质量控制方式图
1、事前通过定义数据的监控规则预防控制。比如,定义数据规范化、数据标准化、做好元数据管理,确定引起数据质量问题的相关因素,做好解决数据质量问题的优先级,并形成案例库;
2、事中通过监控和控制数据生成过程预防控制。建立数据质量的流程化控制体系,定时对数据的新建、变更、采集、加工、装载、应用等各个环节进行控制和检查;通过业务人工规则和机器学习的审核方式对数据进行管理,从数据的源头开始控制好数据质量,对于不符合质量规则的数据进行及时改进;
3、事后定期开展数据质量的分析、检查、清洗工作,对数据进行打分和问题追踪回溯。
总结一下
数据质量管理是数据治理很重要的一个部分,企业数据治理的所有工作都是围绕着提升数据质量目标而展开的。但是,数据治理是王婆娘的裹脚布,也是政治斗争的绞肉机。治理与管理是两个矛盾的对立面,数据的质量归根结底主要是受到人的影响,仅仅试图依赖技术手段解决数据质量问题的效果往往甚微。
所以,想要做好数据质量管理,希望可以做到以下几点:
1、统一企业数据相关人员的认知,从数据录入、数据分析处理入手,把握好数据来源入口;
2、确定好每个阶段的组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果,从数据发现、分发、治理、监督、考核形成流程化的闭环管理;
3、从管理、业务、技术三方面进行规范,严格执行数据标准规范,保证数据输入端的正确性,制度好数据事前预防控制、事中过程控制、事后监督控制的规则与机制。
数据分析 BI
原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/173293.html