很多 Amazon Web Services (亚马逊云科技) 客户需要能够提供比传统数据管理系统更高的敏捷性和灵活性的数据存储和分析解决方案。数据湖是存储和分析数据的一种新方法,越来越受欢迎,因为它可使公司管理来自各种不同来源的多种数据类型,并将结构化和非结构化的此数据存储在集中存储库中。
亚马逊云科技云提供帮助客户实施安全、灵活且经济高效的数据湖所需的许多构建块。这其中包括帮助摄取、存储、查找、处理和分析结构化和非结构化数据的 Amazon managed Services。为支持我们的客户构建自己的数据湖,亚马逊云科技提供了数据湖解决方案,它是一种自动化参考实施方法,可在亚马逊云科技云上部署高度可用且经济高效的数据湖架构,同时提供了一个用于数据集搜索和请求的用户友好型控制台。
亚马逊云科技解决方案概述
亚马逊云科技提供了一个数据湖解决方案,该解决方案可以自动配置所需的核心亚马逊云科技服务,以便轻松标记、搜索、共享、转换、分析和管理公司内部或其他外部用户的特定数据子集。该解决方案自带一个控制台界面,用户可以通过访问该控制台搜索和浏览满足其业务需求的可用数据集。
下图是解决方案架构,您可以用解决方案中随附的 Amazon CloudFormation 模板和部署指南在亚马逊云科技控制台快速完成部署并使用。
Amazon CloudFormation 模板可配置解决方案的核心亚马逊云科技服务,其中包括一系列 Amazon Lambda 微服务(函数)、用于可靠的搜索功能的 Amazon Elasticsearch、用于数据转型的 Amazon Glue 和用于分析的 Amazon Athena。
中国区由于Cognito User Pools暂未发布,所以该解决方案需要依赖客户使用开源的Keycloak来提供用户认证的服务。客户可以使用Keycloak认证域或者使用 Keycloak on Amazon Web Services 的解决方案自己搭建Keycloak的认证服务。
该解决方案利用 Amazon S3 的安全性、持久性和可扩展性来管理组织数据集的持久性目录,并利用 Amazon DynamoDB 来管理相应的元数据。编制好数据集的目录后,其属性和描述性标签将可供搜索。用户可以搜索并浏览解决方案控制台中的可用数据集,并且可以创建他们需要访问的数据列表。
该解决方案将跟踪用户选择的数据集,并在用户签出时生成一个其中包含至所需内容的安全访问链接的清单文件。
https://s3.cn-north-1.amazonaws.com.cn/aws-dam-prod/china/Solutions/Data_Lake/Data_Lake_Solution_deployment_guide-china-rebranded.pdf
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/96040.html