微众银行大数据平台建设方案

微众银行在建立之初,就已经明确了整套分布式自主可控架构方案的核心,即在核心交易系统上,从“两地三中心”的主备架构,发展到现在的“三地八中心、多中心多活”的架构,进一步将科技运营成本降低至3.5元每户每年。除了交易系统,在分析型系统领域上,微众银行也沿着自主可控的方向进行了尝试,最终探索研发了一套适合新一代银行的“高可靠、可扩展、低成本、高效率、智能化”的大数据平台方案。

“大数据是生产要素。”对于全线业务依赖线上渠道的新型互联网银行更是如此。微众银行也不例外,基于数据驱动的交易、产品和模式,在每一笔交易和对客服务的数据更新下不断优化:数据主导的风控策略有效的控制了交易风险;基于数据的客户画像提供了产品策略雏形;数据应用衍生泛智能客服平台、区块链全量存储节点等新型模式……数据通过服务产生价值,价值实现加速了数据和行业的迭代,这转承间,对海量数据这个枢纽进行存储计算等操作的基础设施平台尤为重要。

传统银行基本上是基于TeraData,GreenPlum,SaS等平台,通过数据仓库的模式进行分析型应用开发和数据探索。但这些平台不仅仅License费用昂贵,且实际都无法面对海量数据;不仅如此,传统银行由于缺少统一的数据建设标准,平台间都是数据孤岛,需要专门进行数据导入导出才可以打通平台间的数据。基于海量数据、数据孤岛等痛点,微众银行的业务模式要求大数据平台解决方案必须:

1、支持海量数据;

2、一站式的数据存储和用户体验;

3、符合金融级别的可靠性、安全性的要求;

4、自主可控;

5、低成本。

要达到这样的目标,实际上要解决下面几个核心问题:

1、分布式产品核心清单报表统计的全实现;

分布式核心系统中,单个数据库只有部分客户数据,要统计全量业务的数据,必须汇总到大数据平台,进而产生业务报表。这种架构不同于Sharding的分库,没有中间件可以拆分SQL,也不能一次性查询或汇总结果,要实现这些功能需要大数据平台进行支持。在传统银行通常用关系型数据库支持的监管报送,会计日报,头寸管理,转移定价,也都在大数据平台进行支持。

2、数据存储的统一

大数据的价值很大一部分取决于数据,而数据量和数据的完整性是首要的。传统模式下,银行大数据平台会在内部制造多个数据孤岛,但多个平台之间的数据交换和共享一方面形成了大量冗余的基础数据,例如客户信息:每个孤岛都有完整的一份;另一方面是导致维护成本上升,有些数据还需要ETL开发导入后才可以使用,而多次ETL和存储,占用了存储资源不说,往往还会造成数据不一致而使得问题变得更复杂。一个完整、唯一的全行统一数据底层存储平台,对于构建数据应用、实现数据价值是至关重要的。当然这必须解决对数据权限的控制,保障主备架构和异地灾备的可靠性并确保探索型应用和生产应用的存储数据隔离。

3、数据计算运行统一&资源调度的统一

基于开源组件集成封装,微众银行形成了自身的大数据平台能力,在这同时,也面临大数据开源生态碎片化的问题:每一个开源组件,都需要解决存储和计算本身的核心技术问题。对于数据权限、不同的开源组件间的任务调度、自定义变量函数,运行上下文,计算程序部署运行方式,都是碎片且独立的。如果平台不统一计算的入口、环境和资源,势必会造成整个集群资源的争抢和各个应用团队反复造轮子来解决组件间的调用和通讯。这也是外面商用大数据套件所带来的价值,对于微众银行的金融应用来说,计算的统一是应用大数据平台的必备要求。这里还包括跨所有组件用户权限的统一和用户的数据应用的数据权限的统一。

4、管理和运维的统一

因为大数据平台支撑的不是简单的数据仓库,还包含了大量生产所需的批量业务,各个系统的耦合比较复杂,碎片化的基于原生开源的命令行方式的运维和监控管理方式,是不能满足银行的高可用的要求的。所以需要一个统一的、可以和银行的ITIL集成的运维管理平台,把所有的组件进行管理。这需要大量的工程开发工作。

微众银行在明确大数据平台的目标和要求之后,在开业之后的6年时间内,反复迭代,形成了一个基于大数据生态的套件平台WeDataSphere,来解决上面的核心问题,并有效的支撑业务的高速发展。整个套件平台的解决方案如下图所示:

微众银行大数据平台建设方案

在方案中,所有的计算和存储引擎进行了统一,上层的应用开发工具,微众银行全部进行了自主研发。首先解决了存储的统一;其次面对众多计算的客户端,在解决计算的统一入口和调度上,银行自研了大数据领域的计算中间件Linkis。通过隔离基础的存储计算引擎和应用客户端,统一解决了每个客户端和应用都要面临的问题,包括权限管控,多租户隔离,多引擎支持,以及计算资源的弹性扩缩容。并且,进一步通过Linkis中间件,把不同客户端之间的数据交互和批量依赖打通,真正能够给业务用户一站式的大数据应用的服务,所有的工具都可以连接起来,并且共享用户权限,用户定义的变量,用户定义的函数,大大提高了数据应用的开发效率,和运维效率。

从下图的Linkis逻辑架构图中可以发现,如果缺少这样一个中间层,所有的工具和基础存储计算之间,将会是网状的混乱结构,随着接入的工具和组件越来越多,只会让整个平台日后难以运维和治理,也无法有效的复用各个工具的开发成果。

微众银行大数据平台建设方案

通过Linkis解决计算的统一之后,应用开发工具统一成DataSphere Studio:

微众银行大数据平台建设方案

这给整个数据开发提供了一站式的解决方案。通过一个典型的数据流例子,来说明DataSphere Studio数据应用解决方案:原始数据通过Exchangis抽取进入大数据平台,再按照金融的要求,有选择的通过Maskis进行脱敏服务(探索平台脱敏,生产平台不脱敏),通过Scriptis进行数据应用开发和部署,在应用中可以通过Prophecis来调用机器学习的算法能力,应用产出的数据结果,经过Qualitis进行数据质量校验,最后还能够通过Visualis生成图表给到用户进行展示或者进一步使用。所有这些跨工具和计算组件之间的任务调度,是通过Schedulis这个模块来统一完成,所有Schedulis上的调度任务可监控,可视化。

DataSphereStudio在设计的时候,就考虑了平台的开放性和扩展性,对于上层的应用,每一个组件都提供了API接口可以灵活调用,方便数据开发人员在整个一站式平台的基础上构建自己的垂直领域的应用。这样可以用一个平台有效的支撑生产型的应用和探索型应用。目前在微众银行,已经有多个数据应用工具是基于DataSphere Studio的基础上构建的,例如用户行为数据可视化分析工具WeBoard、数据中台的应用等等。

整个平台的运维和管理是集成在Managis这个组件中的,在这个组件里面完成了所有底层、工具和自研组件的运维工作,同时,汇总了监控信息,集成了集群的部署和扩缩容,以及自动化的故障处置。应对目前几千台服务器,且大量基础组件的情况下,集成化和自动化的统一运维管理工具是必不可少的,而且可以通过集成的运维工具,控制很多高危风险的运维操作,这种安全控制是降低科技操作风险的重要手段。

微众银行大数据平台建设方案

在整套的WeDataShpere的解决方案下,微众银行建立了两个集群:

  • BDP–承载所有的生产离线和实时的业务
  • BDAP–负责探索和可以灵活调整应用的环境

在两个集群间,利用自研的Transportis进行数据同步,并且生产集群的灾备集群也是通过Transportis进行异地增量同步,确保数据存储的统一和一致性。满足包括高可用在内的金融级数据应用的保障要求。

微众银行的大数据平台支撑的银行业务场景举例如下:

微众银行大数据平台建设方案

可以看到,在这套方案下, WeDataSphere已经完全支持了生产型的数据类应用,从离线的风控分析,到实时在线的反欺诈,交易查询,运营查询,批量的对账,监管报送等等;而对于数据仓库类的应用,微众银行也是基于同样的方案,支持了经营分析,客户画像,模型训练,尤其兼容了银行风险类业务人员最熟悉的SAS的软件的使用习惯,自研了QuickML平台,切换了风险用户SAS的使用场景到自研的大数据探索平台上,而且还提供了更丰富的机器学习算法,支持业务进行模型构建和数据计算,彻底在微众银行脱离了对所有的国外商业化的数据处理平台的依赖,并且利用大数据的生态,可以提供比原来的商业化平台高于上百倍的能力来进行分析和建模。当前整套大数据平台,支持每天60T的数据增长,每天40万的数据任务的处理。

从2019年开始,微众银行将WeDataSphere进行了开源,回馈给开源社区,目前核心的组件已经开源,包括Linkis,DataSphere Studio,Schedulis,Qualtis,Scriptis,Visualis,Exchangis。开源一年多,受到了各个行业的广泛欢迎,试用企业已经达到了400+,投产企业已有20+,涉及互联网、金融、通信等行业。而且也吸引了一批优秀的企业参与到开源的生态内。

在此感谢为WeDataSphere提交了优化功能、补丁修复及issue的众多开发者,也很期待未来大家继续共同完善WeDataSphere。

微众银行和WeDataSphere 开源社区均希望这套安全可控的大数据解决方案,不仅是服务银行自有的业务和客户,更能推动整个社会、各行业对数据这个生产要素的利用,为普罗大众创造价值。

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/294013.html

(0)
上一篇 2022年11月30日 22:19
下一篇 2022年11月30日 22:56

相关推荐

发表回复

登录后才能评论