前言
目前在这个数字化转型的时代,越来越多的公司高层开始自上而下关注数据了,越来越多的企业也就有了对数据建设的需要了。
一个企业做什么数据工作,都必须有一定的信息化和数据建设基础,比如数据平台、数据应用工具、数据管理工具等。
关于这个,我从事企业数据建设已经有近7年了。从技术到项目管理,我都当过乙方和甲方,有多年与各种乙方厂商打交道的经验,所以来分享数据产品选型的“内幕”。
涉及的产品有:数仓、大数据平台、报表、BI、数据治理、数据中心等。
数仓
数据仓库是一种解决方案,根据企业的需求,有不同的架构(传统数据仓库、数据集市、大数据平台等)。架构下有很多分层和组件,更需要的是架构师的能力,而不是工具,不多说具体原理了。数据仓库的选型主要有:数据存储方案、ETL和前端应用。
底层数据仓库服务器通常是关系数据库系统,常用的解决方案有Oracle、DB2、Greenplum、Teredata等数据仓库专业解决方案。
传统的关系型数据库:oracle、mysql、DB2。
大规模并行处理数据库:Vertica、Teradata(商业)、Greenplum (开源)。
Teradata流行很久了,在银行中广泛使用,但它也非常昂贵。目前我们大部分项目都是基于Greenplum,这是业界速度最快、性价比最高的高端数据仓库解决方案。Greenplum基于PostgreSQL,于2015年开源。我知道国内四大银行有三家在用,五大物流公司有四家在用,很多公司都在从Teradata转到了GP。
大数据平台的主流是:Hadoop+Hive。这个方案的普及性不用多说,后面提到的大部分大数据平台厂商都是基于此来设计平台产品的。
ETL工具里,用的较多的有kettle、Tablend和Penthao。
Talend:基于Eclipse,具有良好的可扩展性、稳定性和自定义性(可以开发自己的Eclipse插件),并且符合Eclipse标准(如程序员熟悉文件目录结构)。Talend可以被很好地嵌入,因为它生成的Java代码可以与其他系统很好地契合,这需要用户使用Java。
Penthao是一个发行已久的工具。第一个版本于2001年发布。Kettle是Penthao的整个数据集成解决方案的一个组件。它也是基于Java开发的,但它不要求用户理解Java,并且隐藏了底层实现细节。与talend相比,它的主要缺点是可扩展性差。由于很难扩展,社区中可用的组件较少。
前端应用工具主要是报表、BI和数据挖掘。前两个的数据产品选型将在后面详细讨论。
大数据平台
2013年前后,Hadoop系统的不断完善标志着大数据应用场景得以满足。此时,一些前沿企业开始搭建大数据平台。
近年来,这些制造商也开始转向“数据中台”的概念。但毕竟,他们是传统的软件制造商。他们不太了解互联网公司提出的“数据中台”是什么。这似乎与他们所熟悉的大数据平台没有什么不同。
事实上,所有大数据平台都已经具备了“数据中台”的基本条件。以大数据平台和数据中台产品为例,各种底层架构和功能基本相同。对于大多数企业来说,中台仍然适合于互联网运营商银行的“富老板”和“数据巨无霸”,中台的确更加重视数据服务化,但一些普通企业确实没做到这一点,所以最好还是埋头做数据化管理吧。
如果你的公司有一个庞大复杂的业务系统,数据量达到PB级,需要海量数据的存储和计算,请选择这三个数据产品选型并比较方案。
报表
现在还在做报表的厂商已经很少了,国内主流的就帆软Finereport,还有开源的工具jasperreport也用的挺多。
数据产品选型方面,普通小公司有1~2名数据工作者,建议购买报表平台,没有必要急着去用BI。
帆软finereport功能齐全,生态良好,服务周到。招报表工程师也很容易。价格略高于其他厂家,但联想到品牌和服务溢价,也还是值得的。毕竟,它是中国的第一。
BI平台
在过去的几年里,BI是外国市场的霸主。BO、Brio、Cognos、MSTR等都是老BI制造商。我在做纯技术时经常使用他们的产品。东西不便宜,而且由产品用户分别两次收费,这是不划算的。架构也非常复杂。与互联网时代的产品使用风格相比,这也是高难度的。
早期国内市场只有报表,但所有与BI相关的大订单都被国外厂商垄断,但BI需求越来越明显,这与信息产业发展初期类似,中小企业的需求也逐渐显现。因此,BI在中国开始发展起来,比如帆软 BI等东西都不错,价格比国外漂亮多了,基本上只限制服务器,不限制用户数量,怎么使用都可以。后来,tableau和powerBI开始流行起来。有许多个人用户支持他们。它们真的很容易使用。然而,在企业应用场景中,根据性能和并发成本的不同,不同的人有不同的观点。
然而,使用BI不是两三个人的事。我们必须建立一个数据仓库,然后进行各种可视化和多维分析。因此,必须有数仓工程师、ETL工程师和BI工程师等职位。当然,如果你是大佬,能力够强,一个人都做了是没有问题的。许多单位在招聘人员时要求必须同时做到这两个方面。
大中型公司都有几个业务系统。建议购买BI系统,如数据仓库、指标体系、固定报表、多维分析和数据可视化。在建设期间,还是需要多几个人当BI工程师来做为好。建设完成后会很舒服。如果业务变化性小,可以留下两个人进行维护。
数据中台
所谓中台,就是集数据采集连接、统一治理、建模分析和应用服务于一体的综合性数据平台,是为企业数据化决策的一大助力,其重要性已不言而喻。
如果公司业务复杂,数据量巨大,重点是业务中存在多个客户应用场景,数据交互效率低,需要大量的客户数据价值发现,需求迫切,可以考虑下中台方案。
最后总结
1、报表平台解决固定报表和自动化报表,支持打印、计算等批量处理操作。如果公司有需要直接使用帆软等平台,有1到2名报告工程师就足够应付了。
2、BI平台是在报表平台上增加解决多维分析和自助查询报表的能力。它要求数据仓库团队做底层数据支持,BI工程师设置各种度量和维度以及做多维分析报表,不需要重复做固定报表了;
3、大数据平台是基于BI平台解决海量数据存储、计算和实时计算的问题;无需关注底层海量数据的存储、计算、实时计算等问题;但需要增加大数据工程师,进行集群维护和基于大数据平台的各种开发工作。
4、数据中台是基于大数据平台,提供ID连接、统一模型、统一服务功能以及附加的偏互联网功能,如标签工厂和用户分析。人员需要增加数据中台产品经理,其他工作仍由大数据工程师和大数据分析师完成。
5、自BI平台开发以来,数据治理能力不断发展,并在大数据平台和数据中台中不断加强。因此,BI平台、大数据平台和数据中台都具备数据治理能力。数据中台还增加了数据资产和计费的概念和功能。
可视化 数据分析
原创文章,作者:3628473679,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/219075.html