一:什么是数据仓库
数据仓库的建立是为了工商企业主管提供系统结构和工具,以便他们系统的组织,理解、使用数据进行决策;广义的讲,数据仓库是一种数据库,它允许讲各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台;数据仓库具有以下特征:
面向主题的;数据仓库围绕一些重要的主题,如顾客、供应商。数仓关注决策者的数据建模和分析,而不是单位的日常操作和事物处理;
集成的:通常数仓是多个异构数据源集成在一起;
非易失的:数仓是物理分离存储数据
对于异构数据库的集成,有两种方法:
查询驱动的方法:当查询在客户端提交后,首先使用元数据字典对查询进行转化,讲它转换成相应的异构站点上的查询,然后将这些查询映射和发送到局部查询处理器,由不同的站点返回的结果集成全局结果;这种查询方法会和局部数据源上的处理竞争资源,方法是低效的;
更新驱动的方法:将多个异构原的信息预先处理集成,并存储在数仓中,供直接查询和分析;
二:操作数据库系统和数据仓库的区别
操作数据库系统主要任务是执行联机事物和查询处理,他们一般是大部分的日常操作,而数仓在数据分析和决策方面为用户提供服务,一般是联机分析处理;
三:为什么需要数据仓库
既然有了数据库为什么还要设计数据仓库呢;因为操作型数据库是为已知和负载设计的,多支持事物的并发处理,需要并发控制和恢复机制,以确保一致性和事物的鲁棒性,数据仓库查询通常是复杂的,涉及大量的数据汇总级的计算,可能需要特殊的基于多维视图的数据组织、存取方法和实现方法,在操作库上处理OLAP查询,可能会大大降低操作任务的性能;
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/9389.html