理解“智能湖仓”架构的现在和未来,需要先了解它的过去。早在 2017 年,“智能湖仓”架构就已初具雏形。当时,亚马逊云科技发布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了打通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查询。
这种重构大概可以分为几个维度来理解,其中最重要的是更强的数据安全、治理和数据共享能力,更敏捷的构建方式,更智能的创新手段。
-
Amazon Redshift Serverless ,让数据仓库更敏捷,支持在几秒钟内自动设置和扩展资源,用户无需管理数据仓库集群,实现 PB 级数据规模运行高性能分析工作负载;
-
Amazon Managed Streaming for Apache Kafka (Amazon MSK) Serverless ,让流式数据接入与处理,支持快速扩展资源,简化实时数据摄取和流式传输,实现全面监控、移动甚至跨集群加载分区,自动调配和扩展计算和存储资源,让用户可以按需使用 Kafka;
-
Amazon EMR Serverless 让大数据处理更敏捷,用户无需部署、管理和扩展底层基础设施,使用开源大数据框架(如 Apache Spark、Hive 和 Presto)运行分析型应用程序;
-
Amazon Kinesis Data Streams on Demand 让流式数据分析与实时数据场景搭建更敏捷。每分钟可以处理数 GB 的写入和读取吞吐量,而不必预置与管理服务器、存储,在成本和性能之间取得平衡且变得更加简单。
回到文章开篇提到的问题,目前行业内已经形成了数据湖和数据仓库的融合必将降低大数据分析成本的共识,主要分歧点在于数据湖、数据仓库对存储系统访问、权限管理等方面的把控。在这些方面,亚马逊云科技的“智能湖仓”架构围绕这些问题都提供了相关的工具或服务。
来源:程序人生
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/258570.html