基于AWS云端数据质量治理解决方案

数据质量治理是数据治理中一个重要环节,对于一个面向数字化转型的企业来说,尤为重要,而目前市场上缺乏完全基于AWS服务,全面覆盖业务和技术需求的数据质量治理整体解决方案。

这篇博客里将介绍一种基于AWS云服务的数据质量治理解决方案 – DQ Key,该方案采用成熟的数据治理模型,覆盖完整数据质量治理流程,通过Data Profile 规则指标,Quality Control质量控制,Quality Evaluation质量评估等环节,将数据治理模块化、治理机制自动化,最终帮助客户建立持续数据质量提升体系,为其企业级数据分析持续赋能。

用户场景

针对各类企业数据质量问题,不同客户角色拥有不同的治理期望。企业内高级管理人员往往侧重于策略层面:通过梳理与建设一套自上而下的数据治理策略,实现数据质量治理的流程标准化;各级业务人员,更多侧重于规则和内容:需要一套数据治理策略帮助他们及时发现数据质量问题,根据实际情况配置常见质量指标,并灵活处理问题数据(自行处理、授权处理、自动处理);而IT侧更多需要考虑新建数据治理技术方案与现有的ETL/ELT流程的兼容性,以及展望新的流程在应对未来各种复杂场景下的数据质量问题时的可扩展性。

基于AWS云端数据质量治理解决方案

F1.客户数据质量治理期望组成

解决方案概述

数据质量治理方案会从业务和技术上应对不同角色用户的期望,DQ Key解决方案将从业务与技术两个角度赋能客户团队。

基于AWS云端数据质量治理解决方案

F2.数据质量赋能企业数字化转型模型

从上图我们可以看到,从业务赋能角度来看,1)我们通过制定数据质量策略、组织结构权责矩阵、roadmap路线规划来确定上层数据质量治理方向,建立数据质量管理流程、质量控制标准,通过根因分析、质量评分标准来推动整体数据质量的提升;2)形成问题通知机制,通过构建数据回传机制方便客户通知或授权数据属主更新问题数据,并为客户构建统一的质量指标体系。

在技术赋能方面:1)治理模型会为客户建立审批流程控制、质量评分;2)通过事件驱动实现实时发现数据质量问题,通过规则引擎可以灵活配置出相应的数据质量指标,并通过指标配置界面赋予业务自行配置常见的质量指标的灵活性;3)此解决方案采用松耦合设计,将能兼容任何基于Amazon S3的数据湖ETL/ELT处理流程。其底层支持多计算引擎,使其既可以通过Glue/EMR进行大数据处理,也能通过Lambda/Redshift支持少量数据快速处理。4)该方案支持使用python 脚本自定义指标及处理脚本,从而支持未来各种复杂场景下数据质量问题的发现及处理。

综上,DQ Key将会为您提供一套标准化的企业级数据质量管理解决方案的技术实现,并遵循以下七个维度实现一套可持续迭代的治理闭环。

  • 数据质量策略(Strategy:制定整体数据质量治理策略,如明确组织结构权责、制定规划路径、明确运作范围、建立质量管理流程等。
  • 问题识别(Diagnosis:调研企业的数据质量需求、识别重点需求、进行根因分析等。
  • 规则指标(Profile:制定数据质量指标标准,数据情况发现或统计,依据阀值对数据进行监控检测。
  • 质量控制(Control:对已发现的数据质量问题进行质量控制,如数据清洗、问题告警机制、数据流阻断机制等。
  • 质量评估(Evaluation:建立质量评分标准,对数据质量进行整体评估。
  • 质量洞察(Insight:对数据质量指标构建dashboard,对历史问题进行跟踪。
  • 运营反馈(Operation:建立数据回传机制、对数据质量事件进行生命周期内跟踪等。
基于AWS云端数据质量治理解决方案

F3.数据质量治理流程

功能概要

DQ Key 数据质量治理技术方案中的核心板块Data Profile、质量控制、质量评估、质量洞察、运营反馈的开发全部基于AWS原生计算引擎(如AWS Glue、AWS Lambda等),存储采用标准数据湖存储Amazon S3,消息事件管理基于Amazon SNS,在此基础上开发规则引擎用于生成质量指标库、问题处理库,并通过自定义标准函数模版支持复杂指标处理的扩展。在运行支持方面引入了审批流控制,数据安全、操作审计等接口的支持。采用AWS CDK(Cloud Development Kit)实现代码及架构模式(Infrastructure as Code),可在AWS账号中进行一键部署。

基于AWS云端数据质量治理解决方案

F4.DQ Key功能分布堆叠图

云端架构

下图(F5. 服务架构图)展示了DQ Key的架构设计。该图以使用serverless 数据湖架构的AWS Glue进行ETL处理的场景为例,展示了DQ Key如何与企业的ETL主处理流程进行交互工作。

每个ETL任务都会将结构数据分层存放到不同的Amazon S3桶,通过配置,DQ Key可以监听到桶内文件新增或变更,S3对象变更事件触发Amazon SNS,驱动DQ Handler(基于AWS Lambda),Handler触发对应的数据质量检查任务,DQ Key会依据配置好的规则进行Data Profile以及Quality Control的处理,涉及清洗的数据会返回ETL/ELT 流继续处理,最后问题会经Amazon SNS进行邮件或其它方式的通知。

DQ Key处理的结果会存入独立的S3桶,企业数据运营人员可通过Amazon Athena进行数据查看,也可以通过Dashboard将数据质量情况进行可视化分析和展示。DQ Key标准解决方案包含Amazon QuickSight开发的Dashboard实例,同时用户也可以灵活选择其他BI 工具进行分析。

基于AWS云端数据质量治理解决方案

F5.服务架构图

基于AWS云端数据质量治理解决方案 | 亚马逊AWS官方博客 (amazon.com)

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/312191.html

(0)
上一篇 2024年3月4日 22:37
下一篇 2024年3月6日 15:32

相关推荐

发表回复

登录后才能评论