如果你问企业“ETL工具重要吗?”我想答案一定是肯定的;如果你问企业“一定要选用商用ETL工具吗?”,这个结果就不见得那么统一了。ETL供应商足以应对不断变化的数据环境而更好得生存吗?ETL起源于数据仓库,虽然开发人员的学习曲线很高,但它提供了许多好处,比如分布式处理、可维护性、基于UI而不是脚本等。
耦合对编程而言是一个旧概念,但在涉及数据处理方式时仍然是一个相对较新的概念。众所周知,ETL流紧密耦合,但现在的数据流管道是松散耦合的,这种方法也有缺点,例如用暗数据创建数据沼泽。
标准化转换仍然可以遵循ETL过程,但对于像数据自助服务这样的全新概念,不能使用旧的流程和实践。数据质量、数据安全性、元数据管理和数据治理等标准ETL流程仍然与数据驱动相关。
数据湖的影响
大数据的到来对ETL的整体流程造成了影响,ETL必须转型并开始支持大数据生态系统技术,以下是ETL受到大数据影响的具体方式:
1、ETL仍然与使用的DW环境相关。目前,DW和数据湖通过扩展和改进架构相互补充,可能未来也是如此,因为所有新的用例都是使用数据湖构建的。
2、与使用ETL工具/引擎进行处理并将RDBMS作为存储来实现标准转换相比,使用数据湖处理和存储数据提供了单一平台,易于使用且更便宜。
3、数据湖扩展了仅来自标准化ETL的分析,因为数据湖可以实现首次获取,然后是数据准备,这是面向自助服务和ad-hoc的,这在ETL中是不可用的。
4、数据湖被用作数据登陆/归档,甚至RDBMS也无法作为存储解决方案处理。因此,需要重新思考如何实施ETL工具。
5、ETL并不适合在非结构化环境中使用,但是大数据流程可以存储半结构化和非结构化数据,这使得ETL必须向这些方向转换。
随着大数据而出现的新的体系结构和技术都在逐渐削弱传统ETL的作用,ETL工具需要支持新的技术才会有价值,需要向Hadoop和其他开放式架构转变,这也意味着传统ETL供应商的作用在减少。
重塑ETL,需要注意哪些事情:
1、与开源工具的结合程度
用于数据处理和存储的专有技术正在失去与ETL工具的相关性,ETL供应商应该能够支持所有开源项目,比如Spark、MR以及HDFS等。
2.以云为中心
ETL工具应该支持具有内部部署版本的云原生架构,有一些新的云原生ETL工具,如Snaplogic,Informatica Cloud和Talend Integration Cloud,它们提供了一个集成平台即服务(iPaaS),可以解决基础架构方面的许多挑战,但仍有一些ETL功能方面的限制。与新兴工具相比,这些ETL工具并非自助服务,未来应该更多地关注自助服务和机器学习,可以尽量让这些工具实现 ad-hoc和自我训练。
3.为融合数据做准备
ETL是一个以开发人员为中心的数据转换工具,而融合数据准备则是以自助服务为重点的数据转换工具。随着越来越多得开发人员使用数据湖进行分析,无论是临时流程还是标准流程,ETL都开始变得无关紧要,因为自助服务将变得更加普遍,两者合并为创建单一数据转换类别工具,这样的工具可用于任何标准和临时转换。
4. AI / ML
AI / ML是一个推动者,它通过自动化流程帮助数据工程师和开发人员轻松快速完成工作。在AI算法和数据工作者之间创建一个沟通桥梁, 一旦建议被开发者接受,AI就会开始学习,并根据建议调整分类和转换。
因此,AI将继续影响数据架构的许多部分,包括数据分类、数据建模、数据存储等自学习算法,ETL工具需要支持AI解决方案——部分供应商已经开始提供AI功能但离被用作标准解决方案还差得远。
5.自助设计能力
ETL工具应该通过增强现有工具并为此类设计提供新工具,支持创建新的基于自助服务的设计/流程,这将有助于为企业创建新的基于自助服务的用例。
6.实时支持
通过开源技术提供实时支持,并对现有工具的体系结构或为此目的创建新工具,实时让该工具为大数据的所有用例提供支持。
7.大数据质量
仍然没有可以提高大数据质量的ETL工具。很少有人能够描述清楚大数据流程,也没有基于规则的引擎来支持这种执行。 ETL供应商应该专注于这个关键领域,以便能够与Hadoop上基于平台的新工具竞争。
8.匹配和合并大数据支持
在MDM和ETL的灰色区域中 – 需要提供对数据湖中获取数据的支持。这也是一个关键领域,通过使用ML技术,这可以由供应商轻松提供。
9.统一元数据目录支持
大数据时代,企业需要访问其所有数据目录。由于ETL工具已经是元数据的存储库,因此它们能够支持这样的要求,该功能需要自动填充目录,自动对数据进行分类/标记,并启用搜索功能和群组/专家评级。
10.以可重用性为中心的数据湖设计
ETL工具应该通过设计为可重用组件提供支持,这个需求已经出现很久了,是时候重视起来了。
结论
由于大数据时代的到来,企业对数据的掌握更加重视,都希望以更低的成本获得更好的见解,ETL工具需要根据新的需求进行改造,供应商可能会逐渐淡出ETL世界,但还是可以将ETL作为数据转换活动的基础工具提供。 在国外,类似于Talend、Informatica等ETL供应商已经认识到了这些挑战,并创建了专门针对大数据和云计算的新产品。
原创文章,作者:3628473679,如若转载,请注明出处:https://blog.ytso.com/198084.html