细说数据仓库四大大数据工具平台

数据仓库是一种解决方案。要它真正实现时,还是依赖于数据工具平台。

有两种数据工具平台。一个是存储系统,如HDFS,计算系统,有hive/MR/spark/Flink,这是数据仓库的基础。在此基础上进行数据建设和使用(主要依靠自建集群进行数据建设,其他将在别的文章介绍)。本文讨论的是数据仓库的辅助系统:数据服务平台,也就是第二种。

数据服务平台:数据建设,数据使用的辅助与后台。

对于外部用户,如分析师和项目团队,数据可视化/元数据非常重要。通过这两个系统,很容易了解数据的基本情况和统计结果,并进行各种分析。

对于内部用户,如数据团队,调度系统/质量监控至关重要。调度系统可以按时完成任务,质量监控可以确保提前发现数据问题。

下面介绍这四个数据工具平台系统。

1、数据可视化/报表/数据查询 —— 数据的服务员。

数据的意义是在我们能够“看到数据”的前提下,了解历史,观察现状,规划未来。可以看到和理解的数据是有意义的。以适当的方式展示数据,以便于用户理解,这反而绝非易事。不同的数据需要不同的方法,例如查看数据和使用表格;观察趋势就使用折线图;查看分布就使用饼图;观察流量变化就使用漏斗图;查看分布就使用热图等。适当的表达形式可以使人们更好地从数据中获取知识。

举个真实的例子,当我们在一家公司时,我们只做数据构建,没有做好数据可视化。然后,当我们向执行官报告时,我们在命令行上敲了一下命令,得到了一张黑底白字的表格。这张照片就像F4向penny展示了生命大爆炸中用测量到月球距离的场景。报告完成后,我们立即成立了数据可视化团队。

分析师,数据PM,是使用数据的用户,他们通常没有直接使用数据的技术能力。同时,在离线和实时数据场景中,都需要使用MySQL/hive/kylin/Druid/Clickhouse/es等数据工具平台系统,这无疑增加了用户的使用成本。此外,时代是不断前进的,可以随时引入新的数据工具平台系统。用户都要把那些新出来的数据工具平台系统都学完吗?当然不是。因此,需要一个统一的数据工具平台系统,能够展示报表数据和图表分析,使用户能够在一个界面上方便地查询来自多个平台甚至跨平台的数据。

常用的数据工具平台系统是BI系统,如帆软BI平台。一方面,它连接集成的数据仓库数据,另一方面,它在前端展示报告,为管理人员提供驾驶舱,并允许数据用户独立分析。

数据工具平台系统,数据服务平台,数据质量,数据波动

没有一个好的数据查询系统,我们就不能很好地为需求方服务。“一站式数据服务平台”的用户最直观地看到的就是这种情况。

2、元数据 —— 数据的解说员。

元数据是描述数据的数据。通过元数据,您可以了解数据的基本情况和使用方法。它包括数据的基本信息(数据层级、函数、建表语句、字段、存储位置等)、数据信息(数据类型、数据规范化逻辑、枚举值枚举、数值盒图、数据示例等)、数据增长信息(新条目、存储消耗)、数据血统(数据流动路径)等。

在理想的场景中,当构建一个新主题时,只要给出一份元数据,用户就可以清楚地知道数据的来源、逻辑、示例和使用方法,而无需逐一讲解。

3、数据质量 —— 忠实的观察员。

及时发现数据波动,协助查找原因。数据波动有时是由异常数据引起的(整个数据链路中的原始数据、数据采集和数据计算可能会出现错误,因此无法避免数据错误)。当然,大部分时间都是正常的波动,但我们仍然需要尽职观察,随时发现数据波动,提前找到波动的原因,主动抛出数据问题,防止小错误积累成大错误。

数据质量关注的内容

原始数据

表大小

表条数

字段观察,数据是否符合规律。维度字段是否有变化,指标字段值是否异常。

数据计算

自动多维分析,找出指标波动较大的维度和变化情况。

数据转移

在多个数据源之间的数据流转中是否有数据变化。数据条数,数据内容。

报表数据

多个报表包含相同的维度,在同一个维度的总量和维度明细两个方面比较相同的指标。

通过各种自动检查和监控,你可以很好地了解数据的健康状况。应提供常规检查和数据质量报告,以确保“数据良好,使用可靠”。

4、调度系统 —— 勤劳的操作员。

确保任务的稳定执行。许多计算逻辑,包括HQL、Java程序、python程序和spark程序,在某些条件下需要按顺序执行,这些条件可能是时间驱动的:每天3点开始执行;它可能是条件驱动的:在执行所有上游任务后执行当前步骤。当然,事实上,这两种方法常常并存。在这种需求背景下,调度系统应运而生。调度系统不仅可以实现最基本的版本管理控制,而且控制任务是按条件执行的。对于数据工具平台系统来说,数据修改往往伴随着一系列下游任务的执行,因此需要级联筛选和执行的能力。此外,还需要对任务的执行情况进行监控,找出任务的异常情况,包括执行失败、输出延迟等,以便及时处理。

小结

这四种数据工具平台系统是根据用户的感知强度来安排的。它们在数据建设/运行中不是“必要的”。没有它们,它们仍然可以完成。然而,为了更好地利用数据,它们是相辅相成和不可或缺的组成部分。

因此,数据工作不仅要关注数据本身,还要关注数据工具平台系统。

但这一切都要基于一个好用的数据可视化平台。现在市面上流行的有FineBI、Power BI、DataV、鼎数,但权威机构IDC指出市场占有率第1的还是FineBI,这些都可以做数据分析

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/172826.html

(0)
上一篇 2021年9月28日
下一篇 2021年9月28日

相关推荐

发表回复

登录后才能评论