21CTO 社区导读:一位大数据专家详解了数据共享背后的基本概念,以及为什么它有可能改变传统的数据仓库。
原生云(cloud-native)数据仓库的出现,例如一个云数据仓库叫做 Snowflake,它的官方网址为:https://www.snowflake.com,它正在改变人们对数据仓库与BI系统的构建和思考方式。
Snowflake的核心功能是数据共享,它让 Snowflake的所有用户都可以访问任何其他数据库,甚至可以跨越不同公司,安全访问其数据,包括个性化视图,无需再复制,准备,提取,下载或传输数据文件。
听起来似乎挺简单,这正是一种面向未来的优势和转型。
开发者可以将Snowflake视为全球的一个单一数据库,使用Snowflake的每个用户实际上都使用相同的数据库,它只是设置了每个用户数据保密的访问规则。
但是,通过一些SQL命令或GUI界面点击,就可以变换这些规则以启用Snowflake所谓的数据共享。
当一个用户与Snowflake中的另一个用户共享数据时,可以将现有数据表的SELECT或其他访问权限授予该用户。对于传统数据库中相同数据库实例的用户来说,这一直是可行的,但如果世界上的每个人都使用相同的数据库实例,那么任何人也都可以与其他人进行数据共享了。
许多数据仓库包括来自公司内部的数据,来自合作伙伴,供应商和付费数据提供商的数据。比如,消费品制造商通常从销售其商品的零售商那里获得销售大数据。如果没有零售商的数据,他们就不知道都是谁在购买,或者商品的实际销售地点,时间或购买内容等对其具特别有价值的内容。
在没有使用数据共享之前,制造商需要从零售商处提取数据,并把它传到CPG公司,然后再加载到另一个数据库中。这样就会发生一笔不小的费用,还有时间延迟和低效率,而且还丢失了大数据分析、无法提取和传输最低级别数据等能力。
大数据处理的复杂度,以至于最强大的零售商也只能让技术供应商来帮自己处理数据仓库与BI系统。比如沃尔玛的零售系统就是一个典型的例子。
如果实现数据共享,就不需要再提取,传输,加载或维护任何东西,公司也就不需要承担供应商或合作伙伴BI的成本,数据所有者(称为共享提供者)只需共享数据就可以了。
这对于共享数据公司来说是完全免费的,传输的另一方被称为共享消费者,只需自己运行相关查询就可以。
当消除了提取和传输数据的成本和复杂性,包括供应链数据以及BI系统的成本,软件提供商也会节省大量成本,并且还让共享消费者能够比前能更好地访问更新,更详细的数据记录。
当我们不再复制、提取和传输数据,这使事情变得更简单。共享的接收者(消费者)可以像自己的一样使用BI工具操作其中的表格,数据神奇地存在:新鲜,详细,随时可供人们按需访问。
但是,也会有一些责任加到BI工具层面上,例如Zoomdata。如果没有ETL过程加载入站数据,就没有合适的地方来转换,这需要将一个组织的数据与另一个组织的数据无缝连接。使用共享数据作为进一步转换的来源将是一种选择,如果需要复制数据,就破坏了开始使用数据共享的新鲜度和效率优势。
在理想情况下,BI工具可以动态地进行一些数据同步,查询实际的真实数据,不用做或存储任何副本。在Zoomdata中,这些功能称为多源分析,我们最初开发它们是为了帮助同步来自多个数据源的数据,例如,将Snowflake中的数据连接到Hadoop的数据。
它们也是帮助共享消费者现有数据与共享提供商的共享数据保持一致所需的。
我们在Zoomdata中构建了大量功能来实现这一功能,例如跨源过滤,数据融合以及用于ad-hoc群组和集合分析的密钥集。其技巧是在每次查询时动态地根据需要同步数据,而不再通过复制来创建转换过程。
更进一步来说,未来的BI工具可以帮助用户发现可能对他们更有用的数据,这些数据可能与现存在数据一致。可以简单向用户显示与现有分析相关的可用数据共享列表,另外还包括针对数千个共享源的自动化建议和机器人反向测试等复杂方法,还有自动化确定哪些共享可以提供给机器学习或营销算法,或为股票交易系统提供额外的Alpha参考。
BI始终是用户业务和数据汇集在一起的地方。人们通过像Snowflake这样的数据库进行数据共享,BI用户不仅可以有效利用自己的数据,还可以利用其它提供商和公司的数据。
Zoomdata还想象了一个美好前景:BI工具是人们访问世界所有数据的门户,只需通过几次简单点击就可以轻松编制索引、搜索,然后立即和自己的数据保持一致。
作者:Justin Langseth
编译:张正
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/257614.html