数据集市详解程序员

数据集市(Data Market)是一种更小、更集中的数据仓库。简单地说,原始数据从数据仓库流入不同的部门以支持这些部门的定制化使用。这些部门级的数据库就称为数据集市。一个数据集市就是一个部门的数据集合。数据集市是为特定部门的决策支持而组织起来的一批数据和业务规则,习惯上称它们为“主题域”。不同部门有不同的“主题域”,因而也就有不同的数据集市。例如,财务部门有自己的数据集市,市场部门也有自己的数据集市,它们之间可能有关联,但相互不同且在本质上互为独立。
尽管数据集市与数据仓库在很多方面有类似之处,但它们之间却存在着区别。主要体现在:
(1)面向的对象不同。数据仓库面向的是整个企业,为整个企业提供所需的数据;数据集市则面向各个部门。
(2)数据粒度不一样。数据仓库中的数据粒度非常小;数据集市中的数据主要是概括级的数据。
数据集市的数据源主要来自数据仓库,它主要从数据仓库中提取部门所需要的数据以满足部门级的需要。数据集市的部分数据由其他数据源供给


         跟随数据仓库和数据集市的概念,数据仓库的设计方法也分为三种:自顶而下,自下而上,以及两者的混合。所谓自顶而下是先建立一个企业级的数据仓库,再建立各个数据集市,自下而上与此相反,混合的方法是要求在建立数据集市时,同时考虑企业级数据仓库的结构、内容。

数据仓库设计方法论:

在数据仓库建立之前,会考虑其实现方法,通常有自顶向下、自底向上和两者综合进行的这样三种实现方案,下面分别对其做简要阐述:

(1)自顶向下的实现
自顶向下的方法就是在单个项目阶段中实现数据仓库。自顶向下的实现需要在项目开始时完成更多计划和设计工作。这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。

(2)自底向上的实现
自底向上的实现包含数据仓库的计划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓库设计;随着初始数据仓库实现的扩展,将逐渐增加对它的构建。现在,该方法得到了比自顶向下方法更广泛的接受,因为数据仓库的直接结果可以实现,并可以用作扩展更大业务范围实现的证明。

(3)一种折中方案
每种实现方法都有利弊。在许多情况下,最好的方法可能是某两种的组合。该方法的关键之一就是确定业务范围的架构需要用于支持集成的计划和设计的程度,因为数据仓库是用自底向上的方法进行构建。在使用自底向上或阶段性数据仓库项目模型来构建业务范围架构中的一系列数据集市时,您可以一个接一个地集成不同业务主题领域中的数据集市,从而形成设计良好的业务数据仓库。这样的方法可以极好地适用于业务。在这种方法中,可以把数据集市理解为整个数据仓库系统的逻辑子集,换句话说数据仓库就是一致化了的数据集市的集合。这种方案的实施步骤通常分如下几步:
(6) 从整个企业的角度定义计划和需求
(7) 构建完整的仓库体系结构
(8) 使数据内容一致而且标准化
(9) 将数据仓库作为一种超级数据集市来实施


数据仓库与数据集市的比较:

数据集市详解程序员

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/7233.html

(0)
上一篇 2021年7月17日
下一篇 2021年7月17日

相关推荐

发表回复

登录后才能评论