国家银行及大型商业银行
- 项目背景
随着互联网和“大数据”时代的来领,传统银行如今面临来自其他领域的跨界挑战前所未有。如何转变思维,唤醒沉睡的数据,建立强大稳定的数据分析系统,开发创新数据应用,实现经营转型,是银行业“大数据”时代迫在眉睫的任务。同时,也是农业银行在转变经营思路的过程中,一直思考的问题。
中国农业银行数据仓库项目最初是基于Sybase IQ建设的,主要应用于统计报表。随着数据量的不断增大、接入的系统越来越多,Sybase IQ由于性能的限制,已经很难在指定的时间窗口中完成数据统计分析工作,也无法继续接入其它的业务系统数据,无法满足银行内部数据分析和监管机构的监管数据要求。系统架构的障碍影响了农行从宝贵的数据资源中挖掘价值,寻找新的、更先进的产品构建核心数据仓库成为农行迫在眉睫的任务。
为了应对上述问题,农行着手构建新型大数据平台时提出了以“数据是基础,治理是保障,技术是支撑,分析是关键,应用是目标”的原则,核心目标是实现数据价值在业务应用中转变为生产力,构建数据价值利用的有效闭环,真正实现从数据支撑到数据运用的转变。在此过程中,需要对数据治理,提高数据质量,从而更好地满足数据挖掘需求,为数据价值在业务中的深入应用夯实基础。
- 需求分析
农业银行作为典型的数据密集型单位,数据的重要性日益凸现:一方面,数据是其信息化的核心,是保障银行正常运转的关键,对数据库系统的稳定性和安全性有着十分苛刻的要求;其次,数据是宝贵的资源和财富,体量增长非常迅速,新构建的数据仓库系统必须具备对新生数据进行及时处理,计算和管理的能力。其主要需求如下:
- 解决海量数据快速运算与管理的问题:
- 能够支持PB级以上数据、超过万亿行的数据库表;
- 可以支撑每天处理4000个以上的复杂作业处理能力的并行数据库产品(本条目中的性能指标为2014年项目启动之初的原始需求,目前已经构建的数据仓库系统性能指标远远大于如上数据)。
- 系统需要灵活可扩展:
- 具备较高比例的数据压缩能力;
- 要求系统能够具有不断的线性可扩展的能力。
- 安全稳定:
- 数据仓库系统必须安全稳定,具备7×24小时不间断提供服务的能力,保障上层业务系统稳定运行;
- MPP数据库需要具备强大的备份和容灾能力,能够保障数据本身的安全,杜绝因故障引起的任何数据丢失的可能。
- 开放可靠:
- 能够基于x86和Linux开放平台搭建;
- 产品厂商需要具有强大的本地支持团队,能够为客户提供及时的、全方位的服务。
农行数据仓库架构如下图所示,由数据来源、数据处理层、模型指标层、数据集市层、分析展示层及应用门户层组成。系统架构图如下:
农行数据仓库架构图
数据来源层:最下层为数据来源层,数据来源层包括新一代核心银行系统、综合应用系统、客户管理系统、贷记卡、银行卡、电子银行、反洗钱征信和财务系统等120个源系统,分别按照一定时间窗口,进行全量/增量数据加载,要求满足T+1需求。目前,数据来源层共计上万张表,最大表超过千亿行。
数据处理层:数据处理层由Hadoop构建,完成对数据的抽取、清晰转换以及拉链表的加工。目前,数据处理层每日处理完毕的数据输出达2.5TB左右。数据加工完成之后,加载至模型指标层,即农行数据仓库主库。
模型指标层:模型指标层即农行数据仓库,采用GBase 8a MPP Cluster构建,由168节点+168节点的双活集群组成。数据仓库的双活系统分为主库和备库两个系统。主库对数据进行批量操作,生成原始数据。备库将主库加工后的数据按照时间机制定时将主库加工的数据以表增量的形式进行更新。备库对数据进行批量更新后后向上层数据集市和应用提供联机查询的服务。
在数据仓库内部,从功能上可以划分为ODS层,BDS层及GDS层三个逻辑层次。ODS(Operational Data Storage)层即为贴源层,用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。BDS(Base Data Storage)层全称为基础数据层,主要加工任务为在数据库按照对象的需求建模成功之后,对ODS层的数据进行加工和整理。GDS(General Data Storage)即公共数据层,主要目的是为了满足上层应用加工的需求,对BDS层中的数据按照主题或需求进一步进行加工整合,完成轻度数据汇总或宽表加工等任务。
目前主库的裸数据量超过5PB,每天的增量数据为4.7TB,共383040张表,最大表2.5万亿行;库内复杂作业15000多个,涉及SQL语句100000多个;日终加工时间为8小时,T+1时间的双活集群间同步2小时40分钟完成。
数据集市层:通过使用GBase 8a MPP Cluster构建了针对上层业务的资负集市、零售集市、个人客户集市、对公客户集市、分行数据集市、运营风控集市、信用风险集市、财务数据集市、广东分行信用预警分析系统以及分析数据集市等各个集市子系统。为了实现数据的高安全和高可用,采用双活集群组成数据仓库。数据仓库主库加工后的数据,通过DBLink方式,由主库传输到集市环境。
分析展示层:使用特定的计算分析引擎,建立数据模型等方法,完成对数据的挖掘和使用。
应用展示层:应用展示对数据进行最终的调取使用,以供服务和业务的展开。
海量数据管理:为用户提供了并行海量复杂数据处理平台,帮助客户形成PB级以上的业务数据单一视图,为客户提供及时高效的数据分析结果;
满足监管需求:通过对数据统一的管理与治理,满足上层监管部门对上报监管数据的要求,保证数据的准确性、及时性、完整性;
通过数据指导业务:通过数据仓库的建立,对数据在生命周期内有效和高效的管理,保证客户接入更全面的业务数据,满足市场营销、内部管理和内外监管的分析业务需求;
支撑银行领域数据观念转变:随着数据技术和分析理论的发展,要求银行分析业务必须从抽样数据向全体数据、从绝对到效率、从原因分析到相关性分析转变,数据仓库的建立,很好的支撑了这种转变,使理论成为现实;
创新的大数据平台架构:将MPP数据库技术和Hadoop技术的混合使用并搭建组成大数据平台,是金融行业的大数据技术架构和应用的创新,荣获银监会二等奖。
国内金融行业最大的数据仓库和大数据平台:目前农行的GBase 8a MPP Cluster集群的节点个数已经达到2100+节点,共部署42套生产集群,管理裸数据总量超过20PB。是国内金融行业最大的数据仓库和大数据平台。
提升反洗钱风控能力:使用GBase 8a MPP Cluster作为反洗钱风控的数据集市,满足新形势下监管要求及内部风控要求,达到了如下效果:
- 交易覆盖率提升8倍,监控的日均交易覆盖率从最初的2000万增加到约1.8亿,提升8倍,基本完成对农行金融性交易的全覆盖;
- 监控的交易特征要素提升40%,日常监控的交易特征要素从100个风险要锁扩充至约140个,提升40%;
- 可疑预警识别提升2倍,基于全量交易的月均确认风险可疑交易涉及金额增加约2倍;
- 交易要素完整性提高,依托大数据平台进行交易拼接,提高交易信息完整性和准确性,减少分行和网点信息补正工作量。
支撑全行精准营销体系:GBase 8a MPP Cluster大数据平台全面支撑了农行的精准营销全流程,支持各级分行开展营销活动近10万次,实现新增贵宾客户数近400万,信用卡年发卡量突破1000万。基于GBase 8a MPP Cluster的精准营销系统做到了客户的全覆盖管理,覆盖全行个人有效客户9亿,覆盖全行对公有效客户400多万。营销系统日均访问量超过1500万次,日均推送工作提醒5000万,为临柜客户日均推送400万次产品推介。
根据中国银行企业级架构建设总体部署,通过构建“三横两纵一线”的数字资产运营服务体系,为全行数据治理各项工作奠定坚实基础。
“三横”是搭建集团统一数据平台,以“数据+分析+展现”的三层架构,为数据资产的共享、分析应用、服务提供和价值创造提供全面、敏捷、精细的能力支撑,数据仓库是数据层的重要组成部分。
项目采用国产芯片服务器、国产操作系统和国产数据库建设,建成全国产化的企业数仓平台。
中国银行企业数仓系统架构示意图如下:
中国银行企业数仓系统架构图
GBase 8a集群作为中国银行企业数仓的核心部分,进行结构化数据的存储管理与计算,支撑全行的公共数据存储、整合模型计算、共性数据模型架构,并直接承担一些业务应用的查询分析。
使用Hadoop平台用于数据湖的数据存储和公共数据交换区,通过TBDS分布式存储汇聚来自各个业务系统的数据,经过初步加工处理后,加载进入GBase 8a集群。GBase 8a集群运算分析后的结果数据再回到TBDS分布式存储,供其他系统使用。
- 实施情况
本项目目前搭建205台服务器,服务器为海光Hygon 7185芯片的国产服务器,同时使用国产操作系统。部署GBase 8a v9.5.3集群,包含15个coordinator管理节点服务器,120个数据节点服务器,70个freenode节点服务器。为适配国产服务器架构,每个数据节点服务器上部署2个实例。
数据仓库中历史数据约100TB,每日增量超10TB;目前投产上线了6000多个批量任务,核心作业数量约2000个,任务执行时间在3小时内完成。
- 效果及价值
超大规模集群:超大规模集群提供了海量数据存储和超强计算能力,同时具备横向扩展能力,可扩展到千节点以上,支撑中国银行未来规划;
全国产化:金融行业率先大规模应用国产服务器+国产操作系统+国产数据库;
湖仓一体:打通数据仓库与数据湖的数据通道,实现湖仓融合。
- 项目背景
中国银行股份有限公司江苏省分行在大数据形势下,主动进行业务创新,率先搭建基于GBase 8a集群支撑海量数据存储、分析、统计的大数据平台。
GBase 8a集群关系型数据库数据库作为江苏分行的大数据平台,支撑了众多应用系统,其中,已经上线应用系统10个:数据查询平台、营销分析系统、风险监控平台、大风险项目、经济资本管理系统、个人客户信息治理、贸经全景数据平台、柜员业务量系统、数据分析挖掘平台和外部数据管理平台;正在建设中还未上线的系统4个:公司质效管理系统、厅堂销售项目、社保数据对接项目和全球现金管理平台。
此外,江苏分行在2017年年底对GBase 8a集群进行了升级和扩容,扩容后集群规模接近为扩容前集群节点数的2倍,并且升级到了GBase 8a 集群的最新版。
- 关注问题
- 中国银行江苏分行大数据平台对数据库层面提出的需求如下:
- 功能完备:支持数据迁移、数据加工、数据查询、应用连接的大集成;
- 高性能:对数据加载、数据导入导出、数据加工、数据拆分、查询SQL语句要求快速响应,秒级响应;
- 高可用:可以7×24小时持续运行和避免单点故障或系统维护造成停机;
- 易用性:可以实现性能监控、存储空间使用状态、CPU使用状态、内存使用状态和SQL性能等方面的监控;支持SQL92\SQL99标准,支持符合国际规范标准的ODBC、JDBC、ADO.NET接口及本地化CAPI接口。
本项目针对大数据平台建设需求及规划,采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统构建数据平台的核心数据管理层,形成全量数据的统一基础数据平台。该大数据平台的架构如下图所示:
中国银行江苏分行大数据平台架构图
前端业务系统采用OLTP数据库,通过统一的数据交换平台将业务数据数据同步到GBase 8a集群的大数据平台中。在GBase 8a集群完成数据的统计分析,支撑前端的十多个业务系统,如营销分析系统、数据查询平台、风险监控平台、经济资本管理系统、个人客户信息治理、外部数据管理平台、柜员业务量系统和数据分析挖掘平台等业务系统。
目前江苏分行的大数据平台的数据量是360TB,每天的增量是200GB数据,共7400多张表,最大表为70亿行数据,并发30个跑批,每天跑批3-4个小时。
由于江苏分行的业务规模不断扩大,加之有新的应用系统要在大数据平台上线(公司质效管理系统、厅堂销售、社保数据对接和全球现金管理平台等),大数据平台现有的存储空间已经无法满足要求。于是,在2017年年底江苏分行对GBase 8a MPP数据库集群进行了扩容并在扩容的同时将GBase 8a MPP产品大版本升级到了最新版。
到目前为止,江苏分行大数据平台总集群已经升级到了GBase 8a MPP数据库的最新版,无论是平台的稳定性和高可用性,还是平台的数据处理性能都得到了极大的提升。未来,在GBase 8a MPP数据库支撑下的中国银行江苏分行大数据平台还将上线更多的分析类应用,为中国银行江苏分行的业务创新和业绩提升提供有力保障。
- 数据整合:GBase 8a MPP Cluster集群数据库在海量数据存储管理和大规模并行计算方面拥有突出优势,实现海量数据的存储管理,通过高效的数据整合加工能力,提供标准可靠的数据视图。
- 业务即席查询:GBase 8a MPP Cluster集群数据库具有在海量数据下的高效即席查询能力,可以实现交易明细数据的逐笔和快速即席查询。
- 标准化:GBase 8a MPP支持SQL92\SQL99标准,符合国际规范标准的ODBC、JDBC、ADO.NET接口及本地化CAPI接口。
- 高线性扩展能力:GBase 8a MPP Cluster具有的在线高扩展能力,保障数据平台后续接入更多的业务系统及更高层次的复杂分析以及战略决策需求。
- 大数据应用支撑能力:GBase 8a MPP支撑了江苏分行大数据平台的数据查询平台、营销分析系统、风险监控平台、大风险项目、经济资本管理系统、个人客户信息治理、贸经全景数据平台、柜员业务量系统、数据分析挖掘平台和外部数据管理平台等众多应用。
- 项目背景
随着业务不断发展,中国银行山西省分行基础客户数据积累日益增多,数据处理时间窗口和分析性能出现了瓶颈,海量的客户数据得不到有效利用。在综合考虑了业务在大数据分析、研究与应用方面的需求、系统具有足够的开放性和灵活性、实现合理的“投入产出比”以及政府对自主可控的信息国产化的要求这几项需求之后,决定在部分使用GBase 8a MPP Cluster数据库。
- 需求分析
在建设基础客户分析拓展系统过程中,客户提出的需求如下:
查询性能高效:支持模糊查询、等值查询和范围查询,查询性能较Oracle数据库性能提高5倍;
数据同步高效:数据从Oracle数据库加载至GBase数据库性能提高10倍;
集群高可用:7×24小时持续运行,避免单点故障或系统维护造成停机;
集群监控管理:可以实现对存储空间使用状态、CPU使用状态、内存使用状态、SQL性能等指标的监控。
中国银行山西分行股份有限公司针对其在传统Oracle数据库下建设的客户分析系统性能不佳的问题,采用高效的分布式关系型数据库来支撑海量数据存储、分析、统计的大数据平台。GBase 8a MPP数据库产品应用于客户分析系统,通过大数据分析进行精准营销,实现客户和营销渠道的高效服务,实现数据管理业务的增值。
中国银行山西省分行基础客户分析拓展系统架构图
本项目搭建5节点规模集群,采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统构建数据平台的核心数据仓库及数据集市,形成以客户资产、客户关系、运营营销、签约渠道等以客户管理为中心的全量数据统一基础数据平台。
目前的数据量是2TB,每天的增量是10GB数据,共1500多张表,最大表为20亿行数据,每天跑批3.5个小时。结合业务场景,配置1台加载机,1台监控机。
使用了GBase 8a MPP Cluster产品后,极大地提升了数据批量处理、数据装载和数据查询等方面性能,实现了业务需求,使海量客户数据得到了有效利用。
数据加载性能提升:在数据装载方面,计息日存储对私账户主表加工,原Oracle数据库需2小时18分钟,GBase 8a MPP Cluster只需要3分钟。
数据查询性能提升:借助GBase 8a MPP数据库的智能索引技术及列存储的特点,使应用场景中的等值查询、范围查询及模糊查询的效率提升了300%-500%,例如原Oracle无法实现的即席查询功能,GBase 8a MPP Cluster数据库20秒左右即可返回查询结果,有效支撑了营销管理、金融产品管理、决策支持等领域对OLAP的业务分析需求。
业务模型跑批性能提升:借助MPP数据库的多表关联查询速度快的优势,解决了原传统数据库处理能力瓶颈导致的每日跑批作业处理延迟的问题,模型跑批平均耗时缩短5-10倍,保证了业务处理及时性以及新业务的拓展。
数据同步时效性提升:借助GBASE数据同步工具,实现与Oracle数据库的高效同步,数据同步由2小时缩短到3分钟,大大提高了数据分析的效能。
- 项目背景
中国银行澳门分行原先采用Oracle数据搭建其大数据平台,经过多年使用,现在Oracle已经不能支撑其不断发展的业务。随着数据量上升,现在的大数据库平台数据清洗时间过长,日报经常需要T+2才能展示,月报需要到15号以后才能发布,严重影响了澳门中行的业务开展。
- 关注问题
中国银行澳门分行需要一款能够替代Oracle功能并达到更好性能的数据库,在不进行纵向扩容的前提下,通过资源横向扩展来实现性能提升,最大限度的减少系统建设成本,实现“低投入、高产出”的效果。达到如下目标:
- 数据库必须支持横向扩展;支持在线的扩容/缩容;
- 支持Oracle窗口函数、分析型函数;
- 提供一键式的数据迁移工具;
- 支持去中心化部署,系统没有单点故障和单点性能瓶颈;
- 系统支持PB以上结构化数据的承载和分析能力。
为解决客户Oracle平台分析能力问题,中国银行澳门分行搭建6节点的GBase 8a集群替换原有的Oracle平台。通过8a MPP集群分布式计算能力,解决了原有Oracle平台单点故障和性能瓶颈问题,架构图如下:
中国银行澳门分行大数据平台架构图
基于GBase 8a MPP Cluster数据仓库,采用节点数据冗余高可用机制,每个节点包含一个主分片,并同时保存其他节点的两个备用分片。
集群各节点间通过万兆以太网交换机互联,用于数据加载和节点间数据交换;集群通过万兆网及双网卡主备模式绑定对外提供客户端访问服务。
提供监控系统以便客户方便的进行集群状态的监控和运维。
本项目大幅度提升了客户的大数据分析能力:
跑批性能提升:新数据库系统性能提升超过10倍,跑批时间为原来Oracle环境跑批时间的1/20;
平台级性能提升:原系统复杂业务原跑批时间4小时,新平台仅为20分钟;
高可用能力提升:原Oracle环境需要采用基于DG的Oracle高可用机制,同时仅一台服务器提供服务,另一台为备份。新系统可进行全集群的交叉备份,运行时全部六台机器均参与计算,最大限度的发挥整个集群性能,彻底避免了单节点故障,使整个系统高可用能力上升到了一个新的阶段。
- 项目背景
中国银行股份有限公司北京分行搭建的大数据平台系统,主要用于用户营销分析、用户标签分类等业务。通过大数据分析进行精准营销,实现高效服务客户和社会的同时也增加了营业收入。
- 需求分析
大数据平台建设过程中,需要满足如下要求:
功能强大:需要支持数据迁移、数据加工、数据查询、应用连接的大集成;
高性能:需要对数据加载、数据导入导出、数据加工、查询等要求快速响应;
高可靠性:需要支持7*24小时持续运行和避免单点故障或系统维护造成停机;
工具接口:需要支持SQL92标准,并支持符合国际规范标准的ODBC、JDBC、ADO.NET接口及本地化C API接口。
基于客户的业务需求,中国银行北京分行搭建了一套GBase 8a MPP集群来满足以上需求,该系统的架构图如下:
中国银行北京分行大数据平台架构图
目前整个集群系统的总数据容量8T,数据增量大约每个月300G,暂定保留2年的数据。
数据不定时(大部分是晚上)进行批量导入,并通过存储过程进行跑批运算,计算结果存储到结果表中。终端直接查询结果表,主要用户是营销经理,并发量不大。
数据整合:GBase 8a MPP Cluster集群数据库在海量存储和大规模并行计算的突出优势,实现海量数据的存储管理,通过高效的数据整合加工能力,提供一致可靠的数据视图;
即席查询:GBase 8a MPP Cluster集群数据库在海量数据下的高效即席查询能力,实现交易明细数据的快速逐笔查询和即席查询;
标准化:支持SQL92\SQL99标准,支持符合国际规范标准的ODBC、JDBC、ADO.NET接口及本地化C API接口;
高线性扩展能力:GBase 8a MPP Cluster具有在线高扩展能力,保障数据平台后续接入更多的业务系统,满足更高层次的复杂分析以及战略决策需求。
- 项目背景
中国银行股份有限公司黑龙江省分行在大数据形势下,主动进行业务创新,搭建基于分布式关系型数据库的海量数据存储、分析和统计的大数据平台,该平台将应用于各个业务部门的报表系统,以及配合公检法监管部门或客户的业务查询。
- 需求分析
统一基础数据平台:需要支持数据迁移、数据加工、数据查询、应用连接的统一平台;
高性能:要求对数据加载、数据导入导出、数据加工、数据拆分、查询等要求快速响应;
高可用:需要7*24小时持续运行,可以避免单点故障或系统维护造成停机;
高线性扩展能力:需要支持多台节点的在线扩容,来满足未来业务性能和数据存储的指标要求。
本项目搭建4节点规模集群,采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统构建数据平台的核心数据管理层,形成全量数据的统一基础数据平台。目前该项目采用4节点规模集群,数据量是10TB,每天的增量是30GB数据,共1000多张表,最大表为百亿行以上数据,每天跑批4-5个小时。结合业务场景,配置1台加载机,4个计算节点。
中国银行黑龙江分行大数据平台架构图
管理创新:改变数据架构模式,将所有业务模型数据汇集在数据库中,向所有业务部门提供报表服务。利用数据库的大数据复杂场景计算能力,可以配合公检法监管部门进行业务查询;
高性能:业务场景已得到全面性能提升,较Oracle跑批性能提升7到10倍不等,大数据量精确查询性能提升几十倍,低投入带来性能高收益;
高可扩展性:集群可支持多节点在线扩容,可以适应未来业务性能和数据存储的指标要求;
高可用:保障系统7*24小时持续运行,同时可以避免单点故障或系统维护造成停机使用。
- 项目背景
中国银行股份有限公司辽宁省分行在大数据形势下,主动进行业务创新,搭建基于MPP关系型数据库支撑海量数据存储、分析、统计的大数据平台。MPP数据库产品目前主要应用于历史查询系统中,后续会根据数据规模制定新的业务体系。
- 需求分析
功能强大:支持数据迁移、数据加工、数据查询、应用连接的大集成;
高性能:对数据加载、数据导入导出、数据加工、数据拆分、查询等要求快速响应;
高可用:7*24小时持续运行和避免单点故障或系统维护造成停机;
高线性扩展能力:支持多台节点的支持在线扩容。
本项目搭建6节点规模集群,采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统构建数据平台的核心数据管理层,形成全量数据的统一基础数据平台。目前的数据量是10TB,每天的增量是30GB数据,共1000多张表,最大表为百亿行以上数据,每天跑批4-5个小时。结合业务场景,配置1台加载机,6个计算节点。
中国银行辽宁分行大数据平台架构图
- 实施情况
本项目部署6节点集群,日增数库量30G,数据总量约为10T左右。
- 效果及价值:
管理创新:改变数据架构模式,将所有业务模型数据汇集在数据库中,通过Smartbi工具向各个业务模型提供报表数据。
高性能:业务场景已得到全面性能提升,较Oracle跑批性能提升7到10倍不等,大数据量精确查询性能提升几十倍,低投入带来性能高收益。
高可扩展性:集群可支持多节点在线扩容,可以适应未来业务性能和数据存储的指标要求。
高可用:保障系统7*24小时持续运行,同时可以避免单点故障或系统维护造成停机使用。
- 项目背景
随着中行内蒙古银行数字化业务的发展,数据形态已经脱离了原有的单一结构化模式而向着多样态发展,加之业务的不断发展,对系统的灵活性也提出了更高的要求。
随着国内银行业采用基于开放X86 的MPP 架构数据库构建结构化数据处理平台及分析应用已经成为趋势。中行内蒙古银行采用海量并行计算(MPP)架构数据库产品技术,用于建设面向灵活、复杂的业务统计分析需求以及未来不断增长的数据规模及数据来源需求,并做到成本可控、安全可控。
- 关注问题
现有系统无法提供后续业务发展需要的融通处理,无法打通结构化、非结构化数据的互访。借记卡、信用卡、电子银行等等系统之间通过数据交换来进行交互,数据整合成本很高。渠道、CRM等信息无法进入到与生产系统相关联的分析中。因此,对新系统的需要体现在以下三个方面:
- 消灭信息孤岛;
- 建立统一的分析平台;
- 可以支撑未来未知系统发展的需求。
- 建设要求
考虑到未来数据分析平台的发展,对大数据平台要求如下:
- 支持对不同数据来源的数据进行整合;
- 符合政府对自主可控的信息国产化的要求;
- 能够存储并处理结构化和非结构化数据;
- 统一数据平台,提供多接口多数据源接入服务;
- 成本可控。
本项目采用基于X86 PC Server + Linux 的GBase 8a MPP Cluster 建设方案,构建以列存储、智能索引、高效压缩、高可用和分布式并行计算为核心技术的内蒙古银行大数据平台,支持未来10年的分析发展需求。系统架构图如下:
中国银行内蒙古分行大数据平台架构图
本项目采用GBase 8a集群进行数据的存储管理和数据分析,支撑前端的实时信贷分析、渠道分析和风险分析等应用的展现,支撑多数据分析、模型调度、风险预警等数据挖掘分析业务。
- 实施情况
项目实施部署10个节点的GBase 8a MPP Cluster数据库集群。
- 效果及价值
提供了成本可控的可扩展性:通过使用国产X86设备建立分布式集群,提供了系统未来扩展的成本可控能力及系统的国家安全保障,为未来发展保驾护航;
提升复杂客户分析能力:提供对不同业务数据的统一整合,从产品角度完善了不同业务场景功能及性能需求,体现了对全数据的全面处理能力;
提升综合分析查询效率:系统可支持全行全业务覆盖的综合查询和分析,查询分析效率明显提升;数据查询能力从原有的千万行级表数据复杂查询分钟级响应,提升到现在亿行级表数据复杂查询秒级响应。
- 项目背景
中国银行青岛分行数据分析平台自2010年建成已运行8年,满足了分行在数据分析类应用的需求。随着系统管理的数据量越来越大、业务快速增长及业务管理要求的提高,现有系统也暴露出一些问题。
- 数据量快速增长,但数据库扩容困难;
- 系统计算能力与业务部门对系统响应要求;
- 业务部门对数据要求的多面性与系统的数据输出能力等问题。
更新和逐步改进现有数据分析平台、引入分布式数据库全面提升数据分析平台的计算、存储和扩展能力成为亟待解决的问题。
- 关注问题
青岛分行数据分析平台关注和需解决的问题有:
- 解决Oracle数据库在复杂分析型业务中大数据检索和关联即席查询效率低下的问题;
- 在数据分析平台建立内集市用以支持多业务系统的统一的存储和分析等业务需求;
- 采用分布式数据库突破传统基于小型机或一体机不能充分发挥硬件资源及难扩展的系统架构瓶颈;
- 支持数据库集群的横向扩展,可分期分批基于业务需求对分布式数据库进行设备的迭代扩展,节省硬件投入成本;
- 提供异构数据库如Oracle和大数据平台之间的落地和非落地高速数据导出和导入。
- 建设要求
项目的目标就是在中行青岛分行数据分析平台中,引入现今流行的MPP集群作为数据分析平台的数据库,与现有的Oracle数据库并行运用,并以业务查询需求为入口,采用小步快跑、平滑过渡的方式,安排应用功能扩展,逐步以MPP集群替代现有Oracle数据库,利用分布式数据库的存储和计算能力,全面提升青岛分行特色应用集成数据架构的计算和存储能力,满足我行分析型应用系统在数据管理、模型运算和业务分析方面的需求。
现有数据分析平台包括贴源层、加工层和集市层等3个层次,创建数据库及数据表的逻辑模型和物理模型时需要尽量贴近现有平台的表结构创建,减少数据初始化和数据同步程序开发和测试的难度,同时需要按照分布式数据库的特点建立合理的分区健、联接键等,为数据分布、数据联接创奠定基础。
中国银行青岛分行数据分析平台架构图
贴源层:包含总行下发的原交易系统数据、主题模型层数据、汇总层数据和数据服务层数据,需要迁移到大数据平台的数据主要是原交易系统数据,此类数据一般按时间戳或含数据日期的表名区分,数据期间较短,数据迁移、新增、清理等比较简单;
加工层:主要是按照账户、客户等加工的基础数据,是后续数据分析的主要数据源,包括:客户、协议、交易、财务、渠道和产品等数据,数据划分方式主要有时间拉链、时间戳、全量数据(主要是标准数据)等,需要按照数据表的生成机制选定相应的方法处理;
集市层:主要是按照业务逻辑进行的项目数据加工,目前拥有全员营销、绩效等级测算平台等集市数据,数据一般按照日期戳或按数据期间分表的方式区分,数据迁移、新增和清理等相对简单;
- 实施情况
数据分析平台采用2套8个节点的GBase 8a集群建成主备双活集群,提升系统的高可用和灾备能力,提供监控系统以便客户方便的进行集群状态的监控和运维。
- 效果及价值
低成本:有效降低维护成本,整个项目降低了系统管理维护的复杂性,从而达到“集中监控、集中维护、集中管理”的目标,减少系统建设维护成本、节约投资和降低人力成本;
国产可替代性:实现了MPP数据库替代现有Oracle数据库;支持与Oracle的DBLink访问,提供工具化的Oracle迁移方案,有效缩短迁移时间;
技术先进性:建设符合信息技术的最新发展潮流的应用基础架构和应用系统,保证投资的有效性和延续性;
开发接口兼容性:保证开发用的工具平台具有良好的二次开发功能;
高安全性:充分考虑用户、系统、网络方面的安全性要求,防止来自外部非法的访问;且具有用户的身份认证和权限管理;
高可用性:数据分析平台投入运行后即作为生产系统,保证7×24小时服务;
支持备双活集群部署:使系统的高可用性和容灾能力进一步提升。
股份制商业银行及中外合资银行
- 项目背景
广东某股份制银行原有审计系统是“小型机+磁阵”架构。该系统面临数据加载时间长、审计模型运行和用户查询速度慢、并发用户操作宕机、系统维护和扩展困难等问题,急需采用新技术进行改造,以满足审计业务的需求并支持更大的数据量。
- 需求分析
支持广东某股份制银行全部的审计业务数据,面向全国范围内的审计人员使用,要在股份制商业银行中处于领先地位;要求数据加载和数据处理能够快速响应,亿级数据的加载和表关联操作要在分钟级时间响应, 基于大数据的统计、分析及聚合计算要求快速响应;要求系统要有良好的可扩展性;要求并发用户数超过100个。审计人员定义模型,根据模型动态生成SQL语句,系统要支持这些普遍含有while循环、临时表和join关联的动态SQL。
本项目采用基于X86 PC Server + Linux的GBase 8a MPP Cluster建设方案替换原有系统,构建以列存储、智能索引、高效压缩、高可用和分布式并行计算为核心技术的广东某股份制银行审计系统,可管理TB级结构化数据,支持10年的历史数据审计。项目分多期建设完成:
- 一期建设集群20个计算节点,2台加载机;
- 二期新建集群20个计算节点,2台加载机,新建10台ETL数据分发集群;
- 三期新建集群20个计算节点,2台加载机。三期扩容后需要处理的数据量为300TB左右。
新规划后的审计系统将三期建设的3个集群共60个计算节点合并为一个大集群,并新增20个节点,形成一个80个计算节点的大集群;扩容ETL数据分发集群,从10节点扩容到20节点。支撑的数据总量达到1PB。
总行审计、分行审计、中小额企业审计都在大集群中进行处理,通过资源管理进行隔离,保证互不影响,保证处理的效率。系统架构图如下。
广东某股份制银行审计分析系统架构图
系统扩容:从支持几十TB数据量的小型机+磁阵架构升级到可支持几百TB数据量的PC Server+内置磁盘架构;
性能提升:支持100人并发即席查询实现秒级响应,数据加载和模型运算速度提升2-5倍;
高性价比:新系统的软硬件拥有成本不到原系统的20%,大幅降低用户的建设成本;
高可用易扩展:支持多副本,数据互相备份。支持在线近线性扩展,满足未来扩展需求。
- 项目背景
广东某银行股份有限公司成立后,注册资本114.08亿元人民币,截至2020年6月末,资产总计2.81万亿元。该银行是中国金融体制改革的试点银行,是国内最早组建的股份制商业银行之一。
- 关注问题
广东某股份制银行的报表集中管理平台于2012年使用SybaseIQ和Oracle建设,已运行8年,当前技术架构陈旧存在如下痛点:
- 报表出数时效慢,共运行6000多个作业,每天批次时长22.5小时,需要提升报表出数时效;
- 扩容困难,当前报表集中管理平台主数据库使用集中式数据库,存储数据接近50T,需要引入支持线性扩展的数据库;
- 报表开发周期长、报表数据质量问题多等问题。需要增强报表工具自定义报表能力,加快报表版本开发,提升报表质量;
- 存储容量已达上限,单机数据库的存储容量已达上限,无法扩容。
- 建设要求
使用MPP数据库替代SybaseIQ承载报表服务平台,期望实现以下功能和效果:
- 数据加工平台化:利用数据开发子应用提供的多租户开发能力,完成数据接入、加工,并将结果数据同步至报表服务平台;
- 报表开发平台化:引入新报表工具,构建具备支撑平台化研发能力的报表开发平台,提供面向多用户的模型设计、表样开发、版本发布、调度管理、权限管理等功能,支撑科技人员按条端到端研发报表;
- 报表存储能力提升:采用国产分布式数据库,解决原有报表平台的存储容量达到单机数据库上限等问题,并支持自定义报表所需的数据存储需求;
- 整合旧应用:报表服务平台子应用在承接固定报表能力基础上,增加自定义报表及下载指标数据能力,覆盖旧平台(精准分析子应用)现有功能。迁移精准营销(基于Sybase IQ)等业务系统到新平台,逐步下线旧应用。
报表服务平台使用分布式数据库GBase 8a MPP Cluster V9.5进行建设,报表工具使用Smartbi。有效解决报表服务平台面临的报表统计耗时长、数据库扩展困难等问题。报表平台对外提供平台化开发能力,提供自定义报表服务、自助报表数据下载等功能。整体效果如下:
- 解决原有报表系统的报表批次运行时间长(日批约22.5小时)、存储容量达到单机数据库上限等问题;
- 在承接固定报表能力基础上,增加自定义报表及下载指标数据能力,覆盖精准分析现有功能;
- 未来构建为广东某股份制银行统一的报表集中管理平台:引导用户使用新报表平台,迁移精准分析应用数据到新报表平台,逐步下线精准分析子应用。
广东某股份制银行数据分析类业务整体架构图
源系统采用传统数仓(Oracle Exadata)和大数据平台(FI)建设,处理来自行业各种业务系统的数据和行外数据。所有数据加工类处理统一通过数据开发子应用来调用底层数据。
新报表平台集中管理子应用作为全行未来的报表统一平台,对外分别服务业务用户和科技用户。新报表平台采用南大通用GBase 8a MPP V9.5,初期规划部署5台X86 服务器,容量规划为50TB(压缩后容量)。
本项目采用混合部署模式,共部署10个节点,其中5个管理节点,10个数据节点,库内数据达190T。
高扩展性:新平台采用的数据库GBase 8a MPP Cluster为Sharing Nothing 的MPP架构,具备高可扩展性,目前5个节点,未来整个集群最大可扩展到4096个节点;
高性能:新的平台数据处理性能较原有Sybase IQ提升10倍以上。GBase 8a MPP Cluster集群V9版本在2020年12月份完成TPC-DS基准测试,以性能QphDS分数8944478上榜,成为TPC-DS官方榜单物理机世界第一的数据仓库;
高安全性:新报表平台采用全栈国产平台,包括国产服务器、国产操作系统和国产数据库。全国产化整体解决方案保障了系统具备完全的自主可控能力,提供了高安全性。
- 项目背景
随着大丰银行业务不断发展,数据积累日益增多,海量的历史数据得不到有效利用,金融业务和服务创新缺乏IT技术支撑。如何利用海量数据资源进行价值和商业变现,成为提高核心竞争力、抢占市场先机的关键。随着数据量的增长及业务场景的变化,取数和计算范围不断扩充,整个ETL过程的调度也日益复杂,这不仅带来运维成本的增加,也让数据生产质量难于保障。
- 关注问题
大丰银行数据平台使用DB2,存量数据达TB级以上,数据库性能和稳定性都遇到挑战,急需保证数据平台系统在高并发和高负荷下进行查询分析的快速响应能力和系统稳定性。在扩展性方面,需满足未来业务对系统扩展的要求。另外在成本方面,系统需要具有较高的性价比,避免后期建设由于成本过高导致的不可持续维护和扩容。
为了满足大丰银行数据查询分析的用户需求,采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统替代DB2建设新的数据平台以满足用户的预期,并带来更高的价值。
数据平台采用6节点GBase 8a集群支撑TB级数据量。通过GBase 8a的列存储、智能索引、高压缩等技术,有效减少磁盘I/O访问量,在查询统计分析方面较原有系统有很大幅度的提升;支持即席查询和多维分析;支撑各种复杂的BI应用分析展示。作为数据调度平台的基础平台,实现模型、指标、ETL的统一管理,为金融行业其他用户提供方案级复用。
大丰银行数据平台架构图
大丰银行原来的数据平台系统是DB2,目前已全面迁移到GBase 8a集群中运行,对大丰银行的数仓报表出数性能有了明显提升。
- 海量存储高速加载:实现集群加载TB级数据,性能高达20TB/小时。同时提供高压缩比入库,从而提升性能;
- 即席查询:在大数据量的前提下,实现快速高效即席查询和秒级响应,为调度系统提供稳定支撑;
- 统计分析:针对行业大幅提升快速分析性能,比原有系统有2~10倍的性能提升,复杂统计分析秒级响应;
- 统一管理:作为数据调度平台的基础平台,实现模型、指标和ETL的统一管理;
- 数据备份:提供了用户数仓平台重要数据的周期导出备份,包括实例级备份、库级备份和表级备份。
城市商业银行及农信银
山西某商业银行数据集市使用MPP数据库建设,通过MPP数据库集群查询和存储能力,在保留原有数据集市功能基础之上,根据该商业银行的业务特点开发新的数据集市应用,并实现数据的统一整合、共享和展示。
基于GBase 8a MPP Cluster建设该商业银行数据集市系统。源系统通过 ETL 将数据汇集至挖掘集市进行分析挖掘,包括全部业务报表和查询业务系统的业务信息,提取重点信息内容。
数据集群系统包含如下几个部分:
共性加工层:针对集市共性指标维度等进行整理和整合,对数据进行标准化处理,统一口径、统一维度、统一指标,为后续数据整合提供标准基础。
基础整合层:对所有分析类指标维度进行基础整合,对目标结果进行计算与整合,完成复杂计算,对结果数据进行存储,完成星型模型的构建和处理。
数据查询支持:以大规模并行查询和列存储的优势对数据进行查询分析,满足复杂关联查询、统计类查询需求,保证系统查询响应时间。
- 实施情况
山西某商业银行数据集市GBase 8a MPP Cluster环境共部署8个集群节点(8个数据节点+3个管理节点),采用1主分片1副本分片高可用机制。管理的数据量超过60TB。
集群各节点间通过万兆以太网交换机互联,用于节点间数据交换;协调节点与数据各节点间通过万兆以太网交换互联,用以数据加载;集群通过千兆网对外提供客户端访问服务。
- 效果及价值
整合分散系统,打通全行数据孤岛,将原有碎片化资源集中管理,使其得到充分利用。
统一数据管理:统一分析、统一处理,提升客户数据价值,大大节省计算和存储成本。
高效的查询性能:查询响应速度比原有系统提升2~10倍,复杂查询秒级响应。
有效提升实时性:每天批处理时间缩减为原来的十分之一,原有系统批处理分析需要 T+1 才能完成,应用 GBase 8a MPP 后复杂业务最长处理时间不超过 3 小时,时效性分析可以实时完成;
易扩展:支持基于 X86 的横向扩展,极大节省了原有单机数据库扩容依靠纵向扩展的模式。
高性价比:通过横向扩展,将系统总建设成本降低50%。
- 项目背景
阜新银行是在阜新城市信用社基础上组建的城市商业银行。1994年12月阜新市政府整合25家分散的信用社,组建城市信用社中心社;1997年6月4日更名为阜新市城市信用联合社;2001年8月27日组建为阜新市商业银行股份有限公司;2009年12月3日,中国银监会正式批准阜新市商业银行更名为“阜新银行”,这标志着该行正式步入区域性股份制商业银行行列。
2020年3月9日,“2019年中国银行业100强榜单”发布,阜新银行排名第97位。
- 关注问题
2019年7月起IBM官方宣布停止其旗下数据仓库产品Netezza及其一体机全部技术支持,导致阜新银行方面从2019年7月至12月末连续出现大规模的数仓宕机和业务停机事故。而项目集成商和软件开发商未能提供有效的技术支持和解决方案,这是促使阜新银行方面决心更换数仓产品的主要因素。
此外,IBM一体机过高的扩容成本和不断增长的算力要求也促使客户计划替换国外产品。
- 建设要求
阜新银行科技部门积极寻求数据仓库的国产化替代IBM-Netezza产品的整体化解决方案,探索国产自主可控技术路线,寻求硬件低投入,性能高收益的解决方案。新数仓是为交易所提供数据存储和计算的新型平台,涉及交易产生的主要业务数据,并提供数据查询、统计、分析、挖掘、检索等数据处理服务,并在功能上、性能上、高可用等多方面满足要求或者超越原有Netezza一体机平台。
阜新银行大数据平台采用GBase 8a MPP Cluster数据仓库构建,替换IBM-Netezza一体机。全面支撑信用风险系统、资金稽查系统、报表业务、以及日常跑批等各项业务应用。面向全行数据仓库业务领域、十几个业务系统,提供跑批服务、报表业务以及数据深度分析及数据预警等数据支撑,为业务经营发展提供全新的高性能数据处理引擎。
大数据平台架构如下图所示,由数据来源层,数据处理层,数据集市层,分析层以及应用层组成。
数据处理层:主要由GBase 8a MPP Cluster替换原有的IBM-Netezza一体机数仓所承接的前端采集、数据汇总等数据处理任务,完成数据比对、入库、汇总等工作。同时,新增加同城主备集群同步功能,实现同城灾备。
数据集市层:数据集市层分为信用风险、资金稽查、报表应用、数据挖掘等数据集市。其中 GBase 8a MPP集群替代了原IBM-Netezza一体机数据仓库的所有功能,完成基础数据跑批工作和相关业务模块数据汇总业务,并根据业务应用不同搭建对应的数据集市支持报表工具和各个业务系统的数据访问。
- 实施情况
大数据平台共部署6节点,数据总量超过 10TB ,每日增量约50GB左右, 近1万张数据表,4000多存储过程。
目前经过部署期、适配期、已经成功正式上线,并进入系统稳定期。成功实现了对原有IBM-Netezza数据仓库的全面替换。
- 效果及价值
阜新银行引入 GBase 8a MPP 集群建设数据仓库,实现了预期的建设目标,带来了技术和业务方面的双重价值,主要体现以下:
全面平台国产化:基于华为鲲鹏系列国产化平台,结合GBase 8a MPP的优良设计架构和高性能的数据处理能力,全面替代传统的数仓一体机架构。
性能优越性:GBase 8a MPP 先进的设计架构及其解决方案,实现高速数据加载、数据导出、数据处理等,在仅有3个计算节点的前提下集群业务跑批性能就已经超过传统Netezza一体机架构。
高可用性:GBase 8a MPP 的多级高可用技术全面保障阜新银行的数仓、报表、稽查等多套系统的可用性,确保系统7×24 小时稳定运行,无单点故障风险。
安全可控:核心数仓系统均采用掌握完全知识产权的国产分布式数据库产品,具备自主研发,安全可控的特性,全面提升银行存量数据的数据安全和业务安全。
- 项目背景
福建某商业银行的前身是成立于1997年的福建某市商业银行,2009年经中国银监会批准,正式更名。截至目前福建某商业银行下辖漳州、龙岩2家分行,48家支行(含社区支行)和1家直属营业部,网点覆盖福建某市辖内各区域。此外福建某商业银行在厦门设立异地营销团队,于福州筹建分行,进一步辐射海峡西岸经济区。
福建某商业银行正处于业务发展的新阶段,新业务模式层出不穷,数据量日益增多,随着业务数据的内容和形式不断丰富,对数据支撑及数据服务的总体能力提出了更高的要求。因此,基于大数据技术,整合现有行内数据,接入行外数据,搭建并行处理能力强、易于扩展的大数据平台刻不容缓。
结合该银行实际情况,大数据平台的建设包括以下几个目标:
- 通过该银行数据仓库及管控平台项目的建设以及大数据商用平台的选型,完成行内新一代数据平台的基础架构规划和建设;
- 充分利用大数据平台易扩展、硬件投入低、高并发、低延迟的特点,整合各主要业务系统的历史数据,实现查询范围更大、数据更细化、展现更及时的目标;
- 支持外部数据的引入和保存,并根据业务需求与行内数据进行整合,提高行内数据服务及分析挖掘能力。
- 建设要求
实现数据中台的建设,以提升“数据资产变现”能力为业务目标的一站式、一体化开发平台,完成全行数据的大集中管理,统一全行数据开发平台,数据标准并提高数据质量,辅助全行实现数字化转型目标。具体需要实现以下目标:
1、建设一体化数据管控平台。完成数据标准管理、数据质量管理、元数据管理落地,满足数据治理需求,实现数据管控上贯穿数据开发全过程。
2、建设数据开放服务中心。实现向外提供API、订阅、数据分析、数据产品等多样化服务,构建多维数据集、指标数据集、领域数据集,通过数据业务化、服务化组建,支持多场景数据服务需求。
3、建立数据开发一体化机制。实现全流程线上开发,与数据治理平台可以连通部署,支持以项目、任务工单形式进行的流程;支持全线上配置化完成数据建模和ETL;支持开发、测试版本的同步,自动生成上线安装包,形成版本管理。
4、建设智能数据交换中心。实现在线订阅数据交换需求,统一数据卸数及装载工具,支持跨数据库(ORACLE、MPP、MYSQL等)数据文件装载。将分散建设的若干应用信息系统进行整合,通过大数据生态圈的技术来实现信息交换,使若干个应用子系统进行信息/数据的传输及共享,提高信息资源的利用率,保证分布异构系统之间互联互通,建立中心数据存储,完成数据的抽取、集中、加载、展现,构造统一的数据处理和交换。
5、建立统一的指标管理体系。实现对全行经营目标、经营行为、经营结果等情况进行概括性、数量化的统计描述,通过指标管理平台进行指标的定义,通过指标引擎完成指标的计算,为行内监管报送、经营分析、报表服务、管理驾驶舱提供一致性的指标服务,实现指标复用与多用,建立数据中台化服务的核心,指标体系的建立需要业务部门重点参与。
6、建立全行数据资产管理体系。将数据的基本信息、数据之间的关系、数据的使用情况进行统一化和透明化处理,实现元数据驱动的数据开发、数据分析、数据管理全流程管理,管理的内容可以是行内任何有价值的数据资产;提升数据查找和统计的效率,全方位的数据资产采集手段,实现数据资产的共享和复用。
7、实现数据库国产化。将引入国产MPP架构数据库,优化数仓数据模型,数据集市,并借助于MPP先进的架构能力与技术性能,通过数据与业务的双核心驱动建立对智能化应用的支撑能力。
根据同业主流的数据体系建设方法和经验,同时结合福建某商业银行现状采用了上图的数
据体系总体架构设计,包括以下六个部分:
1、数据集成:包括内部各源业务系统结构化数据、半/非结构化数据和外部来源数据,为数据平台提供源数据来源。
2、数据管控:数据管控平台包括元数据管理、数据标准管理、数据质量管理、数据资产管理等。数据管控始终贯穿数据平台的整个建设过程,需要规划数据管控平台的体系架构,分析梳理行内数据标准化、数据质量、元数据的管理流程,结合数据管控平台做好数据管理,提升数据质量。
3、数据开发运维:制定统一的开发规范,提高数据开发质量以及开发效率,降低数据运维成本。主要包括统一数据采集、统一数据交换、统一ETL处理和统一调度平台等产品工具,贯穿数据平台的整个开发和运维过程。
4、数据平台:数据平台为数据应用提供数据支持。包括基础数据平台和大数据平台,其中基础数据平台对高价值密度的结构化数据进行加工、计算;在线(近五年)数据服务可由基础数据平台提供,基础数据平台加工完成的数据也可以批量同步到大数据平台进行历史存储。大数据平台利用大数据特性解决流式数据、半/非结构化数据和低价值密度的历史数据存储、计算,包括整合后的历史数据存储和应用,近线和归档数据(超过五年)服务可由大数据平台提供。
数据平台由大数据平台与数据仓库组成,本次项目数据仓库采用南大通用GBase 8a MPP Cluster构建,借助GBase 8a MPP Cluster数据融合的能力实现与大数据平台的信息共享。项目一期规划为10个节点的MPP集群规模,未来支撑福建某商业银行全行的大数据分析平台。
5、数据服务:数据服务体系根据应用系统的业务需求,由数据平台提供数据,分级分类提供数据交换服务,包括联机查询服务、实时计算服务、外部数据服务和批量数据服务等,满足数据平台与内部应用系统、外部系统交互的需要。其中,我们还可以通过自助分析工具,为用户提供自助分析等数据服务功能。
6、数据应用:数据应用体系作为数据平台的展现及应用窗口,主要通过统一应用平台,实现数据展现分析固定报表、自助分析、灵活查询、图形化展示和历史查询等,满足用户对报表管理以及数据分析的迫切要求,支持经营决策,充分挖掘数据价值。
福建某商业银行数据平台项目一期的10节点GBase 8a MPP Cluster集群已部署实施完成,该项目带来如下价值:
湖仓一体化:GBase 8a MPP Cluster数据融合能力可实现MPP与Hadoop平台无缝数据融合:使用统一的访问接口,实现在线透明跨异构平台的数据交互、异构平台的数据流转,借助该能力可以构建福建某商业银行湖仓一体化平台,实现湖仓批算、数据生命周期管理、多模数据融合的能力。
自主可控的数据平台:数据中台采用全栈的国产平台:包括国产服务器、国产操作系统和国产数据库。全国产化整体解决方案保障了该数据平台具备完全的自主可控能力,提供了高安全性。GBase 8a MPP Cluster具备国际领先的数据库技术,使用该数据库构建数据中台,不仅可以满足当前的业务需求,其高扩展能力可以满足未来随着业务不断发展扩展存储空间和扩展计算能力的需求。
高稳定性:GBase 8a MPP Cluster具有多种高可用机制,有力支撑了福建某商业银行数据平台的高稳定性,包括多副本技术保障单集群高可用、虚拟集群技术提供逻辑集群高可用、双活集群技术实现跨机房的高可用,为福建某商业银行的数据平台建设实现了金融级两地三中心高可用提供保障。
江西某商业银行是中国江西省唯一一家省级城市商业银行。在2017年的排名中,以截至2016年12月31日的一级资本计,江西某商业银行在《银行家》「全球1000家大银行排名」中位列第329名;以截至2016年12月31日的资产总额计,江西某商业银行在所有中国城市商业银行中位列第22名。
江西某商业银行已在江西省建立广泛的业务网络,凭借在广州和苏州设立分行,已成功渗入中国经济活动最为活跃的珠江三角洲及长江三角洲经济区。经过多年努力,江西某商业银行与江西省及中国政府机关、企事业单位和具有战略意义的企业成功建立并巩固长期业务合作关系,客户包括江西省内众多优质的国有及私营企业,行业范围覆盖广泛。
江西某商业银行审计平台数据仓库运行在IBM DB2上,现有数据已经有60TB左右,该业务系统上线运行多年,目前碰到以下问题:
- 性能瓶颈问题:当前DB2数据库已经无法满足行方审计业务的数字化转型,批处理作业以及复杂业务场景时效性很差,严重影响生产应用;
- 扩展性问题:当前DB2数据库受限于系统架构的限制,已经无法满足当前审计业务的容量需求;
- 售后服务问题:目前数据库系统运维成本较高,原厂服务不及时导致使用体验较差。
需要新构建新平台要解决当前面临的问题,满足未来江西某商业银行审计业务数字化转型的业务要求:
- 高性能:新平台数据处理能力较现有生产提升3倍以上;
- 高可用性:采用纯国产化技术,既可以满足自身高可用又可以满足国产信创需求;
- 高扩展性:要求新数据库平台采用分布式架构,具备较高的可扩展性;
- 服务保障:具备本地原厂技术服务,及时响应客户遇到的所有问题;
本项目数据仓库\集市层采用GBase 8a MPP Cluster构建,规划12个节点用来支撑江西某商业银行审计部数据平台。GBase 8a MPP Cluster采用分布式非对称部署模式,对外提供数据接口服务,对内借助多副本机制提供高可用保护机制。系统机构图如下。
江西某商业银行数据平台架构图
- 源数据层:包含来自档案机数据、EAST数据、标准格式外部数据和行内其它系统数据;
- 数据仓库/集市层:数据仓库和集市负责对数据的计算处理,包括数据抽取、数据加工转换、拉链数据维护、数据整合、模型建立和指标管理等;
- 基础平台:相当于对外业务接口层,也即业务中台管理,提供统一系统集成平台功能和对外服务接口功能;
- 应用层:包括各类数据治理管理组件和系统工作台;
- 统计分析层:该层对外提供用户展现,包括领导驾驶舱、风险审计等。
江西某商业银行审计新业务平台项目首期实施部署12个节点的GBase 8a MPP Cluster来满足客户的项目建设目标,带来如下效果及价值:
高扩展性:GBase 8a MPP Cluster采用Shared Nothing MPP架构,提供较高的架构扩展性,整个集群最多可以扩展到4096个节点,可以完全满足江西某商业银行审计部业务需求。
高性能:GBase 8a MPP Cluster上线前实际对比测试结果较现有生产DB2提升5倍以上,包括数据加载、复杂业务跑批作业等。可以极大支撑生产业务的性能需求。
国产化:全平台采用纯国产平台:包括服务器、操作系统、数据库。国产化MPP集群整体解决方案极大的提升平台的高可靠性。
重庆某商业银行大数据平台项目中,客户需求为替换华为高斯产品,同时需要在生态上兼容鲲鹏泰山服务器、可以高效支撑传统关系型结构化数据。对项目建设目标总结如下:
开放型:对于日益变化的技术发展趋势,为使企业 IT 系统的发展能够追随技术发展的大势,建立开放与标准化的 IT 系统是企业赖以生存发展的基础。要求基于业界开放式标准,系统硬件采用基于鲲鹏芯片ARM架构的泰山服务器平台;而在软件方面,构建基于分布式的云化数据库平台也是适应开放性的根本所在。
高扩展性:能够根据业务需求满足系统规模的动态扩展,灵活适应未来业务规模和数据量的不断增长,并使系统整体部署策略能够满足未来的各种变化和发展因素。
数据加工复杂性的提高和周期的缩短:随着精细化、个性化服务理念的植入,对企业经营分析系统的数据模型提出了更复杂的处理要求,基于大量数据的关系型关联运算和指标统计的实现逻辑也变得相应复杂,而一方面企业为了实现更加灵活和迅速的营销响应速度,对关键指标和报表的数据输出处理时间也提出了更高要求。
高可用性和稳定性:在基于国产服务器等低价格硬件平台上构筑可靠的核心经营分析业务系统,所构建的分布式系统必须具备成熟的高可用技术。并且作为一个大规模分布式系统除了保证系统的耐故障特性以外,为了保证系统的稳定运行,还需要系统通过内部的自律性资源管理能力和合理的任务调度控制来保证系统的稳定性。
采用 GBase 8a MPP分析型数据库构建大数据平台,采用 GBase 8a MPP快速加载工具实现数据的快速入库,将银行账务、银行信贷等业务系统的数据采用准实时方式,同步到数据中心,有效支撑各个历史数据的分析应用;通过 GBase 8a MPP的列存储、智能索引、高压缩等技术,有效减少磁盘I/O访问量,在查询统计分析方面较原有系统有很大幅度的提升;支持即席查询和多维分析;支撑各种复杂的BI应用分析展示。
重庆某商业银行大数据平台架构图
- 实施情况:
该大数据平台2017年上线共计部署8个节点,2021年客户再次进行扩容到16个节点,数据容量约250T。
- 效果及价值
降低成本:GBase 8a MPP Cluster 数据库可运行于低成本的国产芯片以及整机服务器,有效节省硬件投入成本,将扩容成本降为原来的1/10左右;
动态扩展:GBase 8a MPP Cluster 数据库节点的水平横向扩展模式,动态扩展无须停止服务,保证业务服务的连贯性;
高可用:GBase 8a MPP Cluster 数据库提升整个系统的协同效率,基于多副本的数据高可用策略,能够保证某节点在发生故障时,不影响系统对外提供服务的连续性。
- 项目背景
伴随银行业机构的数字化转型,数据已成为银行机构越来越重要的资产,银行机构对数据管理能力的提升越发重要。现有数据能力建设自2014年开始,在数据管理与使用方面进行了数据管理与数据应用的信息系统建设,依托ODS及数据仓库系统对该商业银行各信息系统数据进行抽取、存储、加工。现阶段为适应数字化转型和监管需要,结合新疆某商业银行发展,计划对ODS系统进行数据库软件替换。
- 关注问题
传统事务关系型数据库OLTP,主要面向应用的数据库实时响应,对实时性和并发性能要求很高,实现大规模用户的多并发实时访问,对数据分析及决策支持能力较弱,多表关联分析查询及处理性能很低。
- 建设要求
通过对ODS数据库产品进行国产化、分布式替换升级,充分发挥分析性数据库的优势,结合ODS系统的数据整合、建模、分析能力,为新疆某商业银行数据支撑及应用价值挖掘提供有力支撑。
通过对ODS及数据仓库系统的基础架构及数据库重建,解决新疆某商业银行ODS及数据仓库系统的一体机扩容问题和整体性能问题。通过将原有IBM Netezza数据库替换成基于X86服务器的国产化分布式分析型数据库,将原数据库拆分为三个集群:主数据库集群、历史库集群和应用服务库集群,确保整体ODS系统无单点瓶颈以及各集群的灵活扩容,保障ODS系统持续提供稳定高效的数据服务。
原有ODS系统数据架构包含数据接入、接口层、整合层、汇总层、应用层和数据共享平台,基于原有数据架构层级的基础上,整合后建成接口层、整合层、汇总层、集市层及历史层。使用GBase 8a MPP Cluster取代原IBM Netezza为接口层、整合层、汇总层、集市层及历史层提供数据服务支撑,实现数据架构的全流程数据流向管理,以及针对应用服务集市的建设,降低流程和应用干扰度,提升数据服务稳定性。
新疆某商业数据仓库系统架构图
- 实施情况
整个项目部署GBase 8a MPP生产环境主数据库集群9节点、历史库集群3节点、应用服务库集群3节点;开发测试环境主数据库集群3节点、应用服务库1节点。
后续根据需求进行集群扩容及建设双活集群,进一步提升集群高可用性。
- 效果及价值
首次完成新疆自治区金融行业数据库国产化替换:在新疆自治区金融行业内,第一次完成了将原有IBM Netezza替换为GBase 8a MPP,实现了新疆某商业银行ODS系统数据库层面的自主可控;
有效提升分析统计能力,助力新疆某商业银行大数据分析决策;分析型数据库GBase 8a MPP应用于OLAP使用场景,基于海量数据进行分析建模,为多表关联大批量数据分析提供高性能的处理能力,完成快速查询分析,为上层系统提供数据规律和趋势,有效支撑决策支持系统。
- 项目背景
四川某商业银行遵循商业银行经营规律,对标行业先进,注重改革创新,以市场化专业化为导向,以“成为客户体验一流、价值创造能力领先的现代金融企业”为愿景, 实现成为管理规范、经营稳健的现代商业银行和四川经济社会发展的金融主力军。
四川某商业银行积累了丰富的业务数据,数据总量急速增长,数据资源呈现海量、快速增长等特点,原有的Netezza数据仓库系统已存在使用瓶颈,不能满足银行发展的数据产出需求,迫切需要以新的思路、新的方法、新的技术来逐步解决。考虑到国内银行业采用基于开放X86的MPP架构数据库构建结构化数据处理平台及分析应用已经成为一种趋势,故此次采用构架于X86服务器上的MPP数据库,替换原有Netezza数据仓库一体机。
- 关注问题
四川某商业银行原数据仓库系统采用的是Netezza数据仓库一体机,目前可使用的裸数据容量约为25TB。此次数据仓库替换以提升数据处理容量,提高批量数据处理效率,增强数据库横向扩展能力为目的。同时,建设中注重信息安全体系的建设,提高数据的整体安全性,进一步保证数据安全。
四川某商业银行原有数据仓库系统主要面临的问题有:
- 随着业务数据的增加,原有数据库容量已达到瓶颈;
- 存在宕机情况,有一定的安全风险;
- 原Netezza数据仓库已过维保年限,技术支持响应不及时。
- 项目建设要求
新的数据仓库平台需要满足以下要求:
- 低硬件成本:完全使用x86架构的 PC Server,不需要昂贵的Unix服务器和磁盘阵列;
- 高扩展性:支持集群节点的在线扩容和缩容;
- 高可靠性:拥有高性能备份恢复能力和成熟的数据容灾能力,做到无故障数据丢失;
- 统一标准:满足SQL92/SQL99标准及标准化的JDBC、ODBC接口;
- 技术先进性:技术符合目前数仓大数据发展需要,具有一定先进性。
四川某商业银行数据仓库使用GBase 8a MPP Cluster完成海量数据的统一存储、管理、信息共享和数据资源服务,并作为应用系统的支撑,针对不同的业务建立不同的专题,建立完善的数据采集、加载、存储、分析和应用展示的架构。系统总体架构图如下。
四川某商业银行数据仓库系统架构图
数据仓库架构说明:
数据来源层:是银行现有的各种业务系统;
抽取加载层:通过ETL的工具,从源系统中将海量数据抽取出来进行抽取、加载、转换等操作;
存储管理层:采用GBase 8a MPP集群建设,加载机将海量数据进行清洗后,按照一定的规则,将数据按照一定的规律分发到各节点上,建立数据主仓——数据仓库和数据集市,集市根据仓库的业务不同,各集市的规模也不同;
分析展示层:银行通过第三方分析挖掘工具将数据从数据仓库或数据集市中提取出来,进行进一步的分析,加载到相应的业务模块中;
应用门户层:银行的内部系统或外部系统,通过中间件将各个模块所需要的数据整理后通过门户网站呈现出来。
- 实施情况
四川某商业银行部署两套4节点GBase 8a MPP Cluster,并建立为双活集群。主库加工作业完成后通过同步工具自动同步更新到备库。
目前已完成Netezza到GBase 8a MPP Cluster的数据迁移,业务数据量约为25TB。已稳定运行超过400天。
- 效果及价值
动态扩展:系统可扩展能力强,支持集群动态扩展,且性能随着节点的增加而线性提升。
数据迁移:实现了第三方数据库无风险迁移到GBase 8a MPP数据库的全面解决方案。迁移工作做到了,过程标准化、工作简单化、风险最小化。
高可用性:双活同步机制可以保证在每天集群级同步批量完成后,主备集群的数据完全一致。保障了数据和服务的高可用性,即使主集群出现故障无法短期恢复的场景,也可以迅速完成集群切换,使用备库提供数据和服务,充分保障了集群的高可用性。
低投高效:GBase 8a MPP Cluster运行于低成本X86 PC Server,具有高性能,低成本的特性。
可视化、易维护:便捷易用的集群可视化管理工具,功能齐全,方便运维人员管理维护集群,极大提升生产效率。
- 项目背景
江苏银行的业务规模在全国城市商业银行中名列前茅,随着其业务规模的不断增长,业务复杂度的不断升高,以及审计相关数据量的迅速增长,传统数据库和传统SMP架构的性能已经无法满足。为了更有效地做好系统支撑,对采用传统数据库的审计系统的改造,势在必行且迫在眉睫。
- 需求分析
江苏银行审计系统需要满足如下需求:
- 查询响应能力:目前已有存量数据5TB,传统数据库在高并发和高负荷下进行查询分析的速度越发缓慢,急需提高其响应能力。
- 审计及时性:审计业务相关的SQL随机性强、复杂度高,对底层数据库的性能要求很高,系统需要快速运行复杂的审计模型,实现审计服务的及时性。
- 扩展性:在扩展性方面,传统架构无论在计算能力还是存储能力上的扩展空间都很有限,无法满足未来审计业务对系统扩展的要求。
- 低成本:在成本方面,系统需要具有较高的性价比,避免后期建设由于成本过高导致的不可持续维护和扩容。
在江苏银行审计系统改造的实施方案中,GBase 8a MPP Cluster集群由4个计算节点和1台加载机组成,采用2副本数据机制,保障数据的高可用。如图所示,采用GBase 8a MPP Cluster集群做为审计系统的数据平台层,对相关业务数据实现整合,并运行各种复杂的审计模型,实现运行速度相对传统数据库十几倍提升,为江苏银行提供高性能的基于海量业务数据的审计服务,并可进一步支撑在大数据环境下审计系统在审计范围、业务前瞻性、综合性等方面不断提升的规划要求。
江苏银行审计系统架构图
保障复杂审计业务运行:发挥GBase 8a MPP Cluster集群数据库在列存储、智能索引和大规模并行计算技术上的突出优势,实现了审计相关的各类海量数据的汇总、挖掘、分析,高效地完成各种复杂的审计模型,提前发现并预测风险隐患,保障银行业务的健康发展;
打破扩容能力限制:利用GBase 8a MPP Cluster集群的横向扩展能力,保证客户的投资,并在未来需要的情况下对系统进行扩展,支撑更多的数据、业务和用户;
增强高可用性:通过GBase 8a MPP Cluster集群的多副本机制提供透明的高可用能力,在出现服务器故障的情况下仍然可以继续对外提供服务;
解决性价比矛盾:使用通用的X86 PC Server运行GBase 8a MPP Cluster集群,比原系统节省80%的硬件投入,而性能远超原系统。
- 项目背景
农信银资金清算中心有限责任公司(以下简称农信银)为全国30家农村合作金融机构及其数万个网点提供汇兑、银行汇票、个人账户通存通兑等业务的资金清算。随着国家三农政策指引,不断促进农村经济快速发展,农信银的业务量和数据量高速增长。
农信银数据平台的核心数据管理层采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统构建,作为基础数据平台整合了多个核心业务系统的数据,包括支付清算系统、电子商业汇票平台、网上银行平台、网上支付跨行清算平台、自助金融服务平台、共享多介质金融服务平台等,实现报文级细粒度数据的管理,并针对上层应用进行数据整合和共性加工,形成全量数据的统一基础数据平台。农信银数据平台架构如下:
农信银数据平台架构图
在基础数据平台上构建固定报表平台和灵活报表平台,实现对各业务信息进行多维度分析,对历史交易数据进行逐条快速查询。
该数据平台的建设,满足了农信银业务部门和成员机构对数据分析的多样化、时效性、复杂性的需求,实现了资金动态分析、风险管控、信用评级以及互联网金融等高层次应用。截止2020年6月已累积库内压缩数据达到52TB。
- 需求分析
数据平台在农信银的发展过程中越来越重要,数据安全需求和系统异地容灾需求日益突出。亟需建设数据平台的异地容灾系统,实现数据资产的全方位保护。
农信银规划在北京、长沙两个城市建设异地双活系统,满足下一阶段的业务发展与数据安全保护并重的发展要求。针对数据平台,需要实现多层级全方位的高可用和数据安全保障,具体包括:
- 集群高可用,节点故障不影响业务运行;
- 支持异地灾备,实现增量数据同步;
- 支持异地双活,主备集群都可以对外提供数据库服务,并支持主备集群切换;
- 异地双活数据同步时,支持数据同步的并发控制和同步中断,同时保持主集群持续服务能力。
农信银数据平台基于GBase 8a MPP Cluster集群在北京、长沙建立主备双活集群,其中北京的8节点集群为作为主集群。
北京中心的主集群承担应用,对数据进行批量操作(包括数据加载和数据加工),在主集群加工完数据之后,每天特定时间点将数据增量同步到长沙中心的备集群当中。北京到长沙专线网络带宽为20M~30M,每日同步数据时间窗口中午12点到晚上24点。
GBase 8a MPP Cluster异地双活集群采用M-S架构同步,主集群数据可写,备份集群数据可查询;备集群可以分担主集群对外业务查询服务,降低主集群读写对系统资源的争抢压力。数据的同步过程基于自主研发的集群间同步工具实现,集群间同步工具提供了数据同步需要的最核心的功能点及异常处理,各功能点具有低耦合性,使应用程序能够灵活的调用接口,实现同城灾备或者异地灾备。
- 集群间同步工具具备表级粒度增量数据同步能力,支持用户自定义同步任务,可定义优先级优先同步重要的表数据。
- 集群间同步工具具备原子性的特性,即如果一个表在数据同步过程中出现故障,集群间同步工具能够自动回滚,从而保障主备集群的数据一致性。
- 集群间同步工具具备增量数据捕获的特性,即自动识别变化数据并同步。
- 集群间同步工具具备高效数据同步特性,仅同步主副本数据,从副本数据由备份集群内部同步实现;并且同步时直接使用压缩态的二进制文件方式,可有效提升同步效率。
- 集群间同步工具具备数据校验特性,完成同步时执行数据checksum校验,保障了主备集群同步数据的正确性。
农信银数据平台异地灾备系统已建成上线,每天需进行约200张表、超过100GB的压缩态数据文件的同步,实现了如下效果:
实现了全方位高可用:充分保障了农信银数据平台在遭遇灾难、机房瘫痪、网络或电力故障、服务器节点故障等紧急情况下,仍然具备可用能力。北京和长沙之间的GBase 8a异地双活集群,保障了集群级高可用;GBase 8a集群自身具备的节点级和进程级高可用机制,保障了集群持续提供服务的能力;
实现了高数据安全:数据异地容灾备份,数据安全性进一步提升;
实现了高效率同步:采用只同步关键数据表的主副本,点对点同步,增量数据同步,压缩态数据文件同步等方式,完成了在只有100M网络带宽场景下主备集群间数据同步任务。
- 项目背景
农信银资金清算中心有限责任公司(以下简称农信银)为全国30家农村合作金融机构及其数万个网点提供汇兑、银行汇票、个人账户通存通兑等业务的资金清算。随着国家三农政策指引,不断促进农村经济快速发展,农信银的业务规模不断扩大,近年来业务量年增长近1倍,目前累积数据已达到5TB。随着现有业务量的高速增长以及后续新业务的不断扩展,原有系统无法满足农信银业务部门和成员机构对数据分析的多样化、时效性、复杂性的需求,亟需建立统一的数据平台,支撑繁多复杂的报表分析,满足成员机构的数据分析需求。同时下一阶段要基于此数据中心建立大数据平台,接入更全面的业务数据及外部数据,实现资金动态分析、风险管控、信用评级以及互联网金融的等更高层次的应用。
- 需求分析
通过建设数据平台,实现农信银数据的大集中,实现数据的统一存储、访问和分析。数据平台将整合农信银各系统和平台的数据,形成权威性的数据中心,降低业务人员数据预处理工作量,为各成员机构和清算中心提供及时的、多维度的业务分析报表。同时系统需要具有高可靠性和易维护的特点,减少系统运维工作量及成本;需要具有灵活横向扩展能力,以满足未来业务量增长和新业务的需求;需要具备高并发处理能力,支持300个用户数和清算中心用户20个并行访问量。
本项目采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统构建数据平台的核心数据管理层,搭建4个节点集群满足农信银数据平台建设需求及规划。整合支付清算系统、电子商业汇票平台、网上银行平台、网上支付跨行清算平台、自助金融服务平台、共享多介质金融服务平台等多个核心业务系统和平台的数据到基础数据平台,实现报文级细粒度数据的管理,并针对上层应用进行整合和共性加工,形成全量数据的统一基础数据平台。在基础数据平台上构建固定报表平台和灵活报表平台,实现对各业务信息进行多维度分析,对历史交易数据进行逐条快速查询。
农信银资金清算数据平台架构图
海量业务数据整合:发挥GBase 8a MPP Cluster集群数据库在海量存储和大规模并行计算的突出优势,实现海量业务数据的存储管理,通过高效的数据整合加工能力,提供一致可靠的数据视图;
逐笔业务即席查询:利用GBase 8a MPP Cluster集群数据库在海量数据下的高效即席查询能力,实现交易明细数据的逐笔、快速即席查询;
复杂多维度统计分析:基于GBase 8a MPP Cluster的高效ROLAP分析能力,支撑海量数据下的多维度复杂分析报表,为成员机构和清算中心提供分析决策依据;
高线性扩展能力:GBase 8a MPP Cluster具有的在线高扩展能力,保障数据平台后续接入更多的业务系统及更高层次的复杂分析以及战略决策需求。
- 项目背景
常熟农商银行业务不断发展,数据积累日益增多,海量的历史数据得不到有效利用,金融业务和服务创新缺乏IT技术支撑,银行管理层在把控经营风险、制定管理决策时缺乏信息依据。规划和建设自己的数据中心已成为常熟农商银行的经营战略之一。
- 需求分析
常熟农商银行的各个业务系统之间相对独立,对于历史数据的查询、统计和分析类应用费时费力,不能满足性能要求,需要建立数据中心,由数据中心提供统一的数据存储与管理服务。新建的系统能够支持汇总历史数据报表,支持在线归档备份,从而提高查询统计分析性能,满足业务变化产生的新需求,支持领导决策。
本方案采用GBase 8a分析型数据库构建数据中心,采用GBase 8a快速加载工具实现数据的快速入库,将银行账务、银行信贷、国际结算等业务系统的数据采用准实时方式,同步到数据中心,有效支撑各个历史数据的分析应用;通过GBase 8a的列存储、智能索引、高压缩等技术,有效减少磁盘I/O访问量,在查询统计分析方面较原有系统有很大幅度的提升;支持即席查询和多维分析;支撑各种复杂的BI应用分析展示。
常熟农商行数据中心架构图
性能提升:与原数据库相比,数据加载性能提升3倍以上,即席查询和统计分析性能提升6倍以上;
辅助决策:为各种历史数据分析应用提供了数据支撑,挖掘数据潜在的价值;为领导决策提供了客观依据,确保管理层随时掌握银行的经营风险和运营情况;
按需扩展:系统的高扩展性能够应对新的业务需求,可随着数据量的增长采用集群方式构建存储容量更大的数据中心。
山东省农村信用社联合社审计系统使用DB2数据库承载应用,随着业务发展和应用复杂导致的数据量增加,数据存储和处理压力日益增大,DB2数据库存在无法线性扩容, 效率下降等问题,难以满足日益增长的业务数据带来的存储、计算需求。
在此背景下,山东省农村信用社联合社,引用GBase 8a MPP Cluster数据库来解决日益增长的业务数据带来的存储、计算需求。
山东农信基于GBase 8a MPP Cluster配合搭建审计系统的基础环境,GBase 8a MPP Cluster采用 MPP+Shared Nothing技术实现对海量数据的大规模并行处理,具有高性能、高扩展、高可用等特性,可以有效解决山东农信审计系统面临的性能下降、数据库无法线性扩容等问题,支撑山东农信审计和数据分析的快速发展。
GBase 8a集群共承载了审计系统、审计模型、数据分析模型、审计计划集市、模型调度模型、预警模型、审计等各个模型集市子系统。架构示意图如下:
山东农信审计系统架构图
南大通用提供原厂的技术支持,配合实施原数据库系统DB2向GBase 8a集群的数据迁移、存储过程迁移、业务迁移,以及GBase 8a集群调优工作。为山东农信业务的快速切换上线保驾护航,也体现出原厂支持服务价值。
- 审计系统DB2数据迁移:包括迁移数据库对象的迁移,数据的迁移;
- 应用迁移:包括SQL的迁移、存储过程迁移、函数迁移等;
- GBase8a集群调优:包括数据库及操作系统参数优化、数据模型优化、业务调度优化等。
- 实施情况
山东农信审计系统2018年12月15日开始实施,进行GBase 8a集群部署工作及应用的联调工作,到2019年3月22日完成系统上线工作。共部署了24节点的生产环境用于审计系统的数据分析平台,同时还部署了8节点的测试环境用于新业务开发的测试验证。截止2019年底共96TB数据。
- 效果及价值
使用GBase 8a MPP Cluster数据库替换DB2数据库后,审计系统中每天150G数据量的加载及模型转换作业由原来的五个半小时缩短至半个小时,性能大幅度提升10倍。充分证明使用GBase 8a集群建设的审计系统有如下价值:
国产替代:国产MPP数据库GBase 8a集群完全可以替代DB2,提供比DB2更高的性价比;
高性能:智能索引、全并行架构、透明压缩,支持极速查询分析,全面支持高性能查询分析场景,性能提升10倍;
可扩展:开放架构,按需水平扩展:Shared-Nothing架构,支持不中断业务在线按需扩展;
高可靠:全组件HA,无单节点故障:联邦架构,集群管理节点、数据节点等组件全HA设计;
易管理:一键节点替换:提供极简式节点硬件故障处理功能;集群间工具DBLink:实现两套集群间数据可互访;集群管理工具和监控工具,对多套集群集中式、图形化操作。
原厂服务:提供原厂的技术支持,配合实施原数据库系统DB2向GBase 8a集群的数据迁移、存储过程迁移、业务迁移,以及GBase 8a集群调优工作。为山东农信业务的快速切换上线保驾护航,也体现出原厂支持服务价值。
随着我国金融行业改革的不断深入,银行业监管要求日趋严格。按照监管要求,江苏省农村信用社联合社监管数据标准化报送项目有如下困难:
- 需要报送的项目和数据较多。根据监管要求,需要报送的项目包括银监会非现场监管数据、监管数据标准化(EAST)、客户风险统计报表、人行反洗钱数据、个人征信数据、企业征信数据、标准化存贷款数据、支付信息统计、理财与资金信托等10多项。由于各报送项目需要报送不同的数据接口格式,且每个报送系统数据量大、数据组织复杂,数据来源存在交叉现象,建设统一的监管数据报送平台已成为金融机构信息系统建设中非常重要的任务。
- 监管要求涉及业务全面、业务关系复杂,报表之间的校验关系复杂,数据一致性要求高,银行需要多部门配合报送。
- 在业务系统建设过程中数据标准不统一,导致监管数据抽取加工过程复杂,对数据存储和加工提出了较高的要求。
因此,采用先进的技术架构以及成熟的工具产品建立基于大数据计算技术的统一监管数据报送平台,可以极大的提高数据报送质量和效率,并有效减轻数据报送的工作量。
江苏农村信用社决定,采用先进的技术架构以及成熟的工具产品建立基于大数据计算技术的统一监管数据报送平台。利用 MPP 数据库架构的横向扩展能力,实现承载数据量和计算能力的线性横向扩展;同时满足监管要求涉及业务全面、业务关系复杂,报表之间的校验关系复杂,大表关联操作较多的场景要求。
数据标准化报送系统采用GBase 8a MPP Cluster集群搭建,通过可配置的负载均衡机制,来调度和平衡各个节点的负载和并行处理过程,底层分布式架构对于上层应用是透明的,用户所面对的是同一个数据库系统,而不需要考虑如何调度其中某个节点的负载。
江苏农村信用社数据标准化报送系统架构图
系统架构描述如下:
数据产生层:是数据的来源,包括业务办理、内部管理过程中产生的数据,主要是指核心业务系统、信贷管理系统、国际结算系统、理财业务系统等业务办理过程中产生的数据以及人力资源管理系统等使用过程中产生的数据。
数据交换层:作为系统间数据交换的枢纽,对于数据产生层、数据整合层、数据应用层之间数据进行双向交换。数据不允许系统间点对点传输,所有系统对下游提供数据均通过数据交换层,数据交换层本身不产生数据,但可以对源数据做一些清洗处理。交换方式分为批量交换和实时交换,其中批量交换用于产生层与整合层、应用层间非实时的、大数据量的数据交互,实时交换用于系统间少量、实时或者准实时的数据交互。数据交换采用DATASTAGE工具进行数据的抽取、转换和加载过程,部署采用集群架构,不仅可以提高数据抽取效率,还可以避免机器的单点故障。
数据分析平台:是将数据按照一定规则进行整合后统一存储,以方便后续的查询和分析。数据整合层作为数据集中存储、整合的核心,实现了数据共享,避免了系统间数据重复存储和加工问题。
数据应用层:主要存储基于数据整合层提供的原始数据和衍生数据,根据业务需求进行相应的加工,提供应用所需的结果数据或接口数据,并提供用户使用数据的界面和方式,它对整合后的数据进行深度分析,利用不同手段对数据处理结果进行展现,包括固定报表、多维分析、灵活查询等。
数据展示层:提供了机构、用户、角色的统一管理,并根据监管部门要求生成报文并管理报文,展示层还提供数据补录界面,用于弥补监管报送需要而基础业务系统数据缺失内容。
- 实施情况
原系统数据库是Oracle和DB2,新建系统使用5节点GBase 8a集群。并由原厂提供支持服务,完成数据迁移到GBase 8a集群,加载性能优化、跑批流程性能优化、查询SQL优化等,将GBase 8a集群性能调至最优,提供对报送系统的良好支撑。
- 效果及价值
高性能:完全相同的环境下,GBase 8a MPP 性能优于Hadoop 1.1倍;
高兼容:GBase 8a MPP 支持通用SQL语法和脚本,而Hadoop对于SQL语法、脚本或字符支持度不足;
易迁移:提供从Oracle、DB2迁移到GBase 8a MPP集群的迁移工具,简化应用人迁移操作。
- 项目背景
福建某农商数据仓库已构建企业级批量数据总线,解决了信息分散、数据质量信息未披露、数据复杂模型等问题,进一步梳理数据服务架构,为管理类应用系统与业务系统之间复杂的数据交互方式解耦,以提升管理类应用系统的分析和模型处理时效。但为了进一步提升数据处理容量,提高批量数据处理效率,增强数据库横向扩展能力,需引入大规模并行处理数据库,以便于为银行大数据转型奠定数据分析基础。
- 需求分析
福建某农商银行数据仓库的裸数据总量已经超过50TB,传统的Oracle共享存储数据库在数据处理、架构扩展性等方面的瓶颈已逐渐显露。为了满足数据仓库业务发展需求,强化数据仓库数据资源整合能力、提升数据处理分析能力、提高数据服务质量及时效性,应对未来深度数据处理分析及大数据分析应用的需求,需要引入新型的MPP数据库软件产品,以提供更全面、更深入、更及时的数据服务。本项目建设旨在实现以下业务目标:
- 提升数据存储容量:引入MPP数据库后,将可承载最高为1PB的数据容量;
- 提高数据处理能力:全面提高数据仓库生产环境的数据处理效能,有效缩短仓库跑批时间;
- 提升数据库扩展性:可根据实际数据量的大小,实现节点的伸缩,处理能力应随着节点的增加呈线性增长。
福建某农商银行原有数据仓库系统由Oracle数据库搭建。新数据仓库系统采用GBase 8a MPP Cluster建设,系统采用10台PC Server搭建数据仓库集群。原有Oracle系统搭建客户服务、风险管理等数据集市。
目前数据仓库集群管理裸数据已经达到70TB,日增量数据是30GB。在此数据量下,实现了高速批量数据加载、数据加工、数据查询等应用,每日数据加工跑批时间在15分钟左右。
福建某农商银行数据仓库系统架构图
性能优越性:GBase 8a MPP Cluster及其解决方案具有良好的ETL性能,数据加载、数据导出、数据处理等的效率为传统Oracle数据库的5倍以上;
高可用性:GBase 8a MPP Cluster保证7×24小时系统稳定运行,确保无单点故障风险;
线性扩展:GBase 8a MPP Cluster在PB级数据量下,性能可以随着节点数的增加而线性增长。
- 项目背景
随着互联网金融行业的不断发展壮大,传统银行与实体经济在业务上横向联系与深度融合进展迅速,业务场景不断向多元化,与政府企业等部门的不断合作,由此产生的数据内容也在不断丰富。建立在数据处理技术上业务洞察能力也需要不断提升。近年来,大数据相关技术发展迅速,为我们提供了高性价比、易于扩展的超大数据处理能力。
本项目旨在通过引进业内领先的大数据基础平台软件、MPP数据库软件、图形化报表工具、数据管控子系统等应用软件,结合同业最佳实践及我行现状,构建符合海南某商业银行未来业务发展需求的数据平台。
- 业务需求
大数据基础平台构建、数据仓库建设、数据标准化建设、数据管控系统、报表系统建设、门户系统构建、统一调度平台、开发平台建设和数据安全建设九大部门。方案充分利用业务最新成熟的技术,打造一套稳定的新数据业务平台。
- 建设要求
本期项目由中电金信负责数据平台的上层建设,MPP数据库采用南大通用GBase 8a MPP数据库,大数据平台采用星环TDH,报表平台为帆软fineBI。项目建设目标是利用以上组件构建海南某商业银行新一代数据平台,服务于海南某商业银行金融数字化业务发展、构建小微金融和零售银行的双业务共同发展、实现银行和网络银行的同步发展。
本次项目内容范围包括大数据基础平台软件、MPP 数据库软件、数据应用开发实施、数据报表工具或 BI 类软件等等。项目采用 Hadoop 集群与 GBase 8a MPP数据库集群混搭的湖仓一体化架构,搭建低成本、高性能、大容量、易扩展的数据基础平台、实现结构化、半结构化、非结构化数据集中采集、存储、加工、分析和应用,并基于此技术架构重构数据仓库和规范历史数据存储使用,形成基础数据体系,提供支撑经营管理的各类数据应用。
海南某商业银行平台技术架构图
项目共包含4层:数据源层、数据中台(数据交换层、数据湖、数据仓库、数据访问层和数据服务平台)、业务中台、数据应用层。整体方案采用 GBase 8a MPP分析型数据库构建大数据平台,采用 GBase 8a MPP快速加载工具实现数据的快速入库,将银行账务、银行信贷等业务系统的数据采用准实时方式,同步到数据中心,有效支撑各个历史数据的分析应用;通过 GBase 8a MPP的列存储、智能索引、高压缩等技术,有效减少磁盘I/O访问量,在查询统计分析方面较原有系统有很大幅度的提升;支持即席查询和多维分析;支撑各种复杂的BI应用分析展示。整体方案架构图如下:
海南某商业银行数据平台整体统架构图
- 实施情况
海南某商业银行数据平台共部署5个节点,数据量达250T左右。
- 效果及价值
前瞻性、 实用性、 可用性、 稳定性和先进性:采用Gbase 8a MPP数据库的系统建设方案代表国际国内先进的大数据设计理念,采用先进成熟的技术,具有较强的前瞻性;
规模扩展性: GBase 8a MPP 数据库支持节点横向拓展;
开放性: 整个数据平台系统应具有良好的开放性、 根据业务系统的发展需求快速的做出变更;
功能可扩展性:提供标准数据语言、接口及灵活完整的二次开发平台,能够根据业务发展的需要,自行进行功能的完善、 修改和增加功能;
安全性:GBase 8a MPP数据库具备自主可控,满足系统采用全国产可控组件构建的要求,有力提升系统数据安全。
- 项目背景
江西农信作为华中地区有影响力的银行业成员,在几年前采用IBM Netezza一体机解决方案构建了ODS数据仓库平台。数据仓库的应用有效地支撑了江西农信的经营分析、决策支持、风险控制等多个业务场景的数据分析和数据挖掘的需求。
随着银行业竞争的加剧和各类业务快速发展,作为企业核心竞争力的数据分析和挖掘平台的数据仓库有进一步演进和发展的需要。
- 关注问题
Netezza 一体机产品属于基于封闭式架构,价格昂贵,后期硬件、软件维护成本较高,且实际场景使用中发现Netteza 批处理能力强,但并发查询弱,满足不了客户多并发查询的业务需求。
江西农信数据平台采用采用一体机+MPP数据库集群两类大数据平台技术混搭的方式数作为据仓库基础架构。架构图如下:
江西农信数据平台架构图
本项目中Netezza一体机平台建议保留并作为ODS系统的主体平台。利用一体机的高稳定性和中、小数据量分析场景下,MPP并行处理、列存储、压缩、FPGA硬件加速等先进技术,提供对各前端业务系统实时或准实时数据的寄存功能,同时提供在线数据处理功能,主要面向各类及时性要求较高的在线业务查询和小数据集的分析类场景。包括及时性要求较高的日常的报表类应用,如日报、周报和和在线的实时统计,实时查询,提供面向固定用户和固定业务场景的数据查询和关联分析能力。
- 效果及价值
动态高扩展:不受数据量与设备能力的限制,随着业务数据量增长,按需线性扩展;
自主可控:国内自有知识产权,安全可靠,可定制开发;
低成本:采用经济的PC Server+本地磁盘硬件方案,降低系统建设成本;本土企业售后服务及时高效,降低运维成本。
30.1项目概况
- 项目背景
天津农商银行原数据仓库系统是天津农商银行重要基础平台类系统。原数据仓库系统一直部署在Netezza一体机上,鉴于数据是银行的重要资产,数据分析是使数据产生价值的有效方法,增强对数据资产和相关设备的自主掌控是金融业基础设施国产化替代的重点方向,因此天津农商银行决定替换数据仓库系统的Netezza一体机并对原数据仓库系统进行升级改造。
天津农商银行原数据仓库主要用于存储来自各个业务系统的数据,包括核心系统、个贷系统、网银系统、零售系统等。各系统数据量不断增长,数据复杂,包括2000多张各类小型复杂表格和多张数据容量巨大的事实表,如何选择替代原有Netezza系统新的数据仓库系统,是整个项目的难点。另外,替换Netezza之后,保持现有架构不进行大的更改情况下,持续支持未来五年的增量数据也是需要解决的问题。因此,天津农商银行拟购买符合信息创新应用的国产化数据库替换现有Netezza系统,建设新一代数据仓库系统。
- 业务需求
为建立高性能与架构扩展灵活的国产数据仓库系统,解决天津农商行数据仓库系统面临的Netezza替代问题,并满足未来持续增长的数据业务,此次升级改造项目需要满足如下要求:
- 国产平台:架构支持国产化软硬件平台,包括操作系统、服务器等;
- 无缝迁移:替换原有国外Netezza一体机系统,完成历史业务迁移,支持数据批量导入,具备自定义函数功能,满足替换业务无缝迁移;
- 业务增量:对未来五年增量数据的存储、管理、使用提供可靠保障,平台规模可随着数据增长进行弹性扩展;
- 业务性能:提升业务数据即席查询的性能。
- 建设要求
- 鉴于数据是银行的重要资产,数据分析是使数据产生价值的有效方法,增强对数据资产和相关设备的自主掌控是本次天津农商行国产替代的重点需求。
- 支持数据存储加密,支持数据库密码加密,支持数据加密压缩;支持相关加密函数;
- 支持国产化服务器、操作系统部署。
30.2解决方案
天津农商银行新的数据仓库系统搭建了15个节点规模的GBase 8a MPP Cluster集群,承载所有结构化数据的存储和计算任务,完成数据加工、数据处理、数据分析等任务。使用数据抽取工具将原有Netezza数据库中数据抽取到GBase 8a MPP Cluster,实现了数据迁移无缝对接,不仅保证了Netezza原有功能,还提高了数据的存储容量与计算性能。另外,同上层应用厂商配合,顺利完成业务迁移任务,顺利实施产品部署和适配工作。
天津农商行数据仓库系统架构图
30.3应用效果
- 实施情况
本项目共部署3个管理节点,12个数据节点,共计15个节点。迁移前原数据量约36TB,入库数据量10TB左右。未来三年数据增量约54T左右。
- 效果及价值
天津农商行采用Base 8a MPP集群建设数据仓库,实现了预期的建设目标,带来了技术和业务方面的双重价值,主要体现以下:
全面平台国产化:基于全国产化平台,结合GBase 8a MPP的先进的设计架构和高性能的数据处理能力,全面替代传统的数仓一体机架构。
海量存储:GBase 8a MPP相比统Netezza一体机架构,具有海量数据高压缩比入库存储能力,大大降低了系统使用的存储空间。
性能优越性:GBase 8a MPP加载TB级数据,性能高达20TB/小时,具有高速数据加载、数据导出、数据处理等优越的性能,同时集群业务跑批性能超过传统Netezza一体机架构。
高可用性:GBase 8a MPP 的多级高可用技术全面保障天津农商行的数仓、报表、稽查等多套系统的可用性,确保系统7×24 小时稳定运行,无单点故障风险。
安全可控:核心数仓系统均采用掌握完全知识产权的国产分布式数据库产品,具备自主研发,安全可控的特性,全面提升银行存量数据的数据安全和业务安全。
优质服务保障:GBase的全方位一体化的产品服务,为用户提供了全方位的保障。
保险行业
- 项目背景
PICC数据平台原系统建设在TD一体机平台上,软硬件紧耦合,使用和运维成本很高。目前存储容量和处理性能已达瓶颈,无法纵向扩容,扩容需要中断业务。
本项目旨在通过采用MPP数据库产品来重构系统,通过大规模并行处理的架构,开放的X86硬件平台,建设具备分布式计算和水平线性扩展能力的大数据平台。按照应用场景的不同,构建独立平台,实现平台隔离,避免资源竞争。以解决目前中国人民财产保险股份有限公司数据平台存在的存储资源和计算性能不足的问题。
- 关注问题
客户急需解决的问题如下:
- ACRM系统同时在oracle和TD一体机上,数据流向复杂,系统依赖程度很高;
- 目前存储存储容量和处理性能已达瓶颈,无法纵向扩容;
- 日报最快T+2日更新,无法适应目前业务需求;
- 近几个月的月报都需要到15日才能发布,有时会推迟到20日;
- 细分工具每周更新一次,每次需要运行3天以上。
客户希望能够构建独立大数据平台,具备分布式计算和水平线性扩展的能力,解决目前数据平台存在的各种问题。
- 建设要求
未来中国人民财产保险股份有限公司将形成TD一体机和MPP数据库共存的数据服务平台。
- 可以将运行于TD上的经营分析平台、车险分析和理赔分析等系统的部分功能迁移至MPP数据库上,减轻一体机的压力。
- 利用MPP数据库构建大数据资源中心,促进数据资源融合共享,提升数据资产运营管理能力。
- 将目前在Oracle和Informix系统上运行的数据分析系统移植到MPP数据库中,在大幅降低成本的同时,提高系统的运行效率,为中国人民财产保险股份有限公司的经营分析和业务发展提供更好的数据服务。
针对PICC的特点及建设规划,使用GBase 8a集群建设大数据资源中心,通过GBase 8a集群的列存储、智能索引、线性扩展、分布式并行计算等技术特性支撑用户的业务发展需求,解决TD一体机、Oracle面临的性能瓶颈和不能线性扩容问题。实现了数据分析的统一整合、统一管理、统一调度,为实现PICC的新目标打下了坚实的基础。
利用GBase 8a集群数据库构建大数据资源中心,促进数据资源融合共享,提升数据资产运营管理能力。整体系统的架构图如下:
PICC数据平台架构图
在Oracle和TD系统上运行的数据分析系统移植到MPP数据库中,在大幅降低成本的同时,提高系统的运行效率,为PICC的经营分析和业务发展提供更好的数据服务。
搭建基于GBase 8a MPP Cluster的大数据湖平台,接入上游业务系统数据;逐渐剥离主仓业务,从集市入手逐渐降低TD主仓业务负载,剥离核心业务,从并行运行到逐步迁移替代。
- 实施情况
目前PICC已完成8套生产集群共139节点安装部署,整体承载数据量约2PB。其中ACRM系统搭建两套A(7节点3coor+7data)、B(14节点)集群承载主要业务,日增量基础数据每日7:00前完成;月度报表在每月3日前完成数据发布。替换原数据库Oracle后,整体性能提升2~10倍,具体可见表35- 1。SGA、ODS、F、DW、DM各层整体数据量200+TB,完成1000+个程序迁移工作。具体各系统部署情况见表35- 2。
| 业务类型 | Oracle平台执行时间 | GBase 8a平台执行时间 | 性能提升 |
| 增量 | 18h | 7h | 2.5倍 |
| 全量 | 7day | 16h | 10倍 |
| 月报 | 48h | 4.5h | 10倍 |
| PICC数据平台业务系统名称 | 部署集群情况 |
| ACRM系统 | 1套7节点月报集群(3coor+7data),1套17节点日作业集群(5coor+17data),库内数据总量250TB。 |
| 数仓(原数仓为TD) | 1套23节点主仓集群(5coor+23data),1套46节点集市集群(5coor+46data),1套12节点应用集群(5coor+12data),库内数据总量800TB。 |
| IDS系统 | 1套1节点集群(5coor+14data),库内数据量150TB。 |
| 数据湖 | 1套46节点大集群(5coor+46data),1套5节点小集群(3coor+5data),库内数据总量达500TB。 |
- 效果及价值
高性能:智能索引、全并行架构,支持极速查询分析,全面支持高性能查询分析场景。ACRM系统数据库从Oracle + IBM P780服务器迁移到GBase 8a集群+X86服务器上,在硬件配置比接近1:1的情况下,性能提升2-10倍以上;
可扩展: 开放架构,可实现按需水平扩展: Shared-Nothing架构,支持不中断业务在线按需扩展;
高可靠:全组件HA,无单节点故障:联邦架构,集群管理节点、数据节点等组件全HA设计;支持双活集群,全方位保障系统的可用性;
易管理:一键节点替换:提供极简式节点硬件故障处理功能;集群间工具DBLink:实现两套集群间数据可互访;集群管理工具和监控工具,对多套集群集中式、图形化操作。
原厂服务:原厂为PICC提供TD数仓迁移,Oracle迁移的解决方案及专家支持服务。
- 项目背景
中国人民人寿于2018年采购了GBase 8a MPP Cluster集群数据库,部署10节点集群,作为生产环境支持了分支机构数据BI下发系统、数据仓库升级改造等项目的建设,一定程度上缓解了公司数据类项目对Oracle及数据一体机环境的依赖,在满足计算效率的同时,降低公司对数据机扩容的成本。
自2018年部署完成后,至今一直支持分公司BI数据下发系统使用,系统运行稳定。自2020年1月,数据仓库升级改造项目正式启动实施,预计于2021年初完成系统建设并进入试运行阶段。投入试运行的数据仓库系统将主要在GBase数据库上运行,主要承担操作数据区、主题数据区、通用数据区、应用数据区的数据存储以及各数据区之间的数据加工逻辑处理工作,同时需要承担部分应用的数据直连查询、接口数据查询等工作。基于目前实施阶段对于源数据及各层数据、逻辑、支持应用的情况,建议在现有基础上对数据库进行扩容,以保证数据仓库系统稳定高效运行。
- 建设目标
数据仓库升级改造项目在现有10节点GBase 8a集群基础上扩容集群规模至40个节点,作为数据仓库未来支撑数据类系统的基础支持和大量数据分析应用系统,保证数据仓库系统稳定高效运行。项目需求如下:
- 完成GBase 8a集群的节点扩展,支持线性的资源扩展,性能线性提升;
- 在不影响业务系统运行的基础上,完成在线节点扩容;
- 扩容期间对数据库进行监控,支持扩容期间的并行度调整,支持调整数据重分布
的并行度,支持调整数据重分布的优先级,降低扩容时数据重分布对于业务执行的影响。
为更好的支持人保寿险的业务发展,提升公司经营管理数字化水平,人保寿采购分布式数据库软件,完成数据架构升级相关项目。系统采用GBase 8a MPP Cluster集群搭建,GBase 8a 面向分析型应用领域,以列存为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、快速智能索引等新型数据处理技术,在查询、统计、分析以及批量加载性能上具备突出的优势。
项目一期建设采购10个节点,数据仓库主要承担操作数据区、主题数据区、通用数据区、应用数据区的数据存储以及各数据区之间的数据加工逻辑处理工作,同时需要承担部分应用的数据直连查询和接口数据查询等工作。随着业务的发展,本次扩容30个节点
点,需要承担总公司报表系统、管理驾驶舱系统和大数据平台系统。
中国人民人寿数据仓库系统架构图
- 实施情况
集群规模:当前共40个data节点,5个coordinator节点,其中 coordinator 和 data 节点共用;
数据量:总数据量约120T;
业务相关的日增量:日增量约500G;
并发量:夜间跑批峰值40并发左右,白天查询目前并发量不大,峰值6并发左右;
性能情况:夜间跑批基本在5小时之内完成,由于文件是分批到达,到达一批就加载一批,因此这个时间也包含了等待文件到达的时间,暂无法和之前的跑批性能进行对比;
白天复杂的报表查询基本能在2分钟之内完成。
- 效果及价值
GBase 8a集群扩容到40节点,提升了数据仓库的计算能力和应用效果:
统一数据服务平台:集群规模从10节点扩容到40节点,存储能力提升4倍;可以实现统一数据服务,为多场景分析提供统一数据服务;
高效跑批性能:扩容后,在增加了2倍新数仓业务的情况下,分公司BI业务跑批性能仍然提升了70%以上,整体的跑批任务可以在5小时之内完成;
高性价比:构建合理的“投入产出比”,提供线性灵活扩展能力;
国产数据库、自主可控:符合政府对自主可控的信息国产化的要求。
- 项目背景
在保险行业中,随着数据的日积月累,业务数据量已经超过了亿条的规模,这些宝贵的数据如果应用于分析决策,将会带来显著的附加值。在大数据形势下,作为国有七大保险集团之一的阳光保险集团,正积极利用新理念和新技术挖掘数据的价值,实现正确及时的分析决策,不断提升其竞争力。阳光保险集团原有的分析系统中使用传统数据库,其性能已无法满足海量数据查询分析和挖掘的需求,亟需引入新的技术架构支撑集团对海量保险业务数据的复杂分析和深度挖掘。
- 关注问题
阳光保险集团的大数据分析主要面临如下两个方面的问题:
- 数据增长快速:集团目前拥有客户 4000 万,业务涉及产险、财险、寿险、车险、集团电销、公司险等多项业务,数据总量大,数据增长迅速,大量历史数据需要保存;
- 查询复杂度高,现有系统响应慢:现有系统采用自定义函数、自定义存储过程等方式实现数据查询,查询复杂度高,系统响应不及时,无法满足大数据量下的数据挖掘需求。
- 建设要求
当前系统需要采用新型分析类架构,实现对各业务海量数据的统一存储和管理,并能够进行高效的查询统计和深度挖掘,有效地提高集团的分析和决策能力,实现经营管理优化,提升核心竞争力。
为了满足阳光保险集团对海量数据的查询分析和数据挖掘需求,采用GBase 8a MPP Cluster大规模分布式并行数据库集群系统构建数据平台。数据库负责海量数据的加载,基础数据的整合和共性加工,构建各主题的数据挖掘集市,完美支撑集团的分析应用和决策需求。产品架构图如下
阳光保险数据挖掘平台架构图
项目采用批量生成 ETL 脚本工具,融合客户多种业务应用系统平台信息数据,大大提高了开发效率,保证数据的处理效率,为客户深层次业务分析提供了强有力的支撑,满足了用户保险业务系统信息整合及高速统计。
数据挖掘平台满足了集团多个高层次的应用:
- 通过历史保单信息、客户信息、交易信息、财务信息等数据分析,提升新业务的拓展效率;
- 通过险种、交费年期、被保人职业、被保人年收入、被保人年龄段等信息,优选投保种类;
- 通过大数据组合及挖掘,深层次地分析险种受众群体。
- 实施情况
集群规模:8个计算节点+2台加载机
数据规模:总数据量16TB,共6310张表,最大表超过3亿多行,每天运行1067个数据加工作业,涉及SQL语句4682个,每日数据增量15GB。
- 效果及价值
高速加载、海量存储:实现加载亿行大表数据,同时提供高压缩比入库从而提升性能,海量存储能力,整合多业务部门数据,并可根据需求在线动态扩展;
即席查询、秒级响应:在海量数据下,实现高速即席查询、区间范围查询,为分析系统提供稳定支撑;
高效分析、精细运营:大幅提升保险行业中涉及到的大表关联、多表关联查询的运算分析性能,复杂统计分析秒级响应,帮助客户实现精准营销、精细化运营。
- 项目背景
英大泰和人寿保险股份有限公司(简称英大人寿),由国家电网有限公司及其所属公司发起,于2007年6月26日在北京注册成立,注册资本金40亿元。目前,国家电网有限公司(简称国家电网公司)所属 26 家公司共同持有英大人寿股份80.1%。英大人寿历经十余年发展,2020 年在全国 91 家人身险公司中,原保险保费收入排名第32位,规模保费排名第30位。
在当前的数字化背景下,英大人寿面临的高频业务需求已呈现持续扩大的趋势。为应对数据分析工作,英大人寿在2018年建设了数据仓库,选用了南大通用GBase 8a MPP数据库产品。至2021年5月,GBase 8a MPP数据库已经达到质保期年限后,客户再次与我司签约,采购我司原厂服务,帮助客户维护和管理GBase 8a MPP数据库。
- 需求分析
保险公司的数据来源多种多样,有来自内部业务系统的数据,也有外部互联网的数据。英大人寿虽然建设了数据仓库,但对存储的业务数据如何使用仍然有困扰。
英大人寿希望实现业务人员自助分析,首先需要提供数据资源目录让他知道如何用这些数据,把数据变得易懂易用。通过对表、字段名称进行业务含义翻译,把枯燥的数据翻译成容易理解的业务数据,并且把字段的数据类型、显示格式、维度层次等提前设置好,以便业务人员使用。通过这种方式,还可以把企业的数据资产化,提升数据价值。有了数据资源目录,还需要以可视化的形式展示出来,并且提供精准的搜索功能。
- 建设要求
为保障南大通用GBase 8a MPP数据库产品正常运行,结合信息技术、大数据信息化时代的管理,改善日常运维运营的复杂的管理,设施设备的统计管理,提升维修项目数据统计,高效率的管理,降低日常运维费用。
英大人寿“数据之家”平台利用GBase 8a + Smartbi Eagle提供的多样化自助分析工具供业务人员选择。例如即席查询,主要用于大数据量的清单明细查询,任何字段均可作为筛选条件;提供类似Excel透视表的透视分析,支持超大数据量的查询性能,支持超多维度、甚至维度无法固定的分析场景;还提供自助仪表盘,让业务人员通过拖拉拽就可以生成可视化的数据仪表盘,做到所见即所得。
英大人寿“数据之家”平台架构图
- 实施情况
本项目部署了3个节点(3个管理节点,3数据节点)集群,数据量约600G。本次项目客户再次与我司签约,采购我司原厂服务,帮助客户维护和管理GBase 8a MPP数据库。
- 效果及价值
通过数据仓库建设,有效提升日常数据分析的效率,营造全公司范围的数据分析文化,实现“数尽其用、人尽其才”的目标。随着应用的逐渐深入,平台将不断激发公司各级人员对于数据的认知和分析,提升公司数据资产的价值,有效推动“数据化运营”战略的落地,为英大人寿在数字经济时代的进一步发展提供强有力的保障
金融监管机构及金融交易所
- 项目背景
非现场检查是银监会对金融机构业务活动及其风险状况进行评估的重要手段。当前非现场检查工作存在很大问题:银行业务量急剧膨胀,复杂程度大大提高,传统的手工检查方式效率低下,难以保证非现场检查工作的质量和全面性。使用高效的分析型数据库系统对银行海量数据进行分析成为非现场检查工作的必然选择。在这种背景下,迫切需要一套高效、实用的数据库系统应用平台对金融机构海量业务数据实现安全存储、高效分析和准确评估,以改进传统现场检查模式,全面提高非现场检查工作的质量和效率。
- 需求分析
本项目需求主要包括:对1TB数据进行高效存储;提高对金融数据的查询、分析效率;金融数据属国家敏感数据,系统要满足高安全级别的要求;替换费用高昂的小型机+磁阵系统,控制系统建设成本。
GBase 8a采用列存储和先进压缩算法,对金融数据进行高效压缩存储,同时结合智能索引等技术大大提升系统查询和分析效率,并通过采用基于X86 PC Server大大降低了建设成本。本系统架构如下图所示,以国产高容错计算机为硬件基础平台承载了GBase 8a,业务数据存储管理系统通过接口平台对银行业务数据进行访问、抽取和加载。在GBase 8a的数据支撑下,数据分析平台及软件工具包通过Web UI向用户提供业务模型、数据分析挖掘、数据提取、标准化数据和数据存储等服务。
银监会非现场检查系统架构图
高性能:数据压缩达到1:5,查询测试性能比传统数据库平均提高10倍;
低成本:采用经济的PC Server+本地磁盘硬件方案,降低系统建设成本;本土企业售后服务及时高效,降低运维成本;
高安全:完全国内自主研发,摆脱对国外数据库的依赖,可以消除信息安全隐患,为国家战略安全提供保障。
- 项目背景
中国证监会中央监管信息分析平台项目,旨在对证监会信息系统数据和资源进行统一整合,进而对监管业务和流程进行集中再造,最终实现信息资源的大集中和OLAP分析型监管业务的协调统一。
证监会中央监管平台的建设需要实现业务系统和数据资源的高度整合,降低监管成本提高监管效率。统一标准、数据、功能和界面,全面覆盖全部监管机构和流程,共享中央数据平台信息是项目建设的基本原则。
- 需求分析
- 构建数据平台:需要实现标准统一、数据共享,信息汇总、协调统一的大数据分
析平台,用以支撑上层应用;
- 支持海量数据:目前内部数据总量为5TB,未来规划需要支撑百TB海量数据的存
储、查询、分析;
- 构建挖掘类应用:传统IT系统缺乏灵活有效的数据挖掘与分析工具;
- 可扩展性:适应未来五年大数据平台规划,具备不断扩容能力。
数据源主要来自于证监会中央监管信息平台DW和其业务系统中的数据,通过ETL将数据加载和同步到GBase 8a MPP Cluster数据库中,上层应用则通过ODBC、JDBC等接口实现和OLAP软件的访问。通过GBase 8a MPP Cluster强大的数据加工能力,可以实现混合OLAP的计算能力,为应用提供对原始数据的查询通道。
证监会信息分析系统平台架构图
低硬件成本:完全使用x86架构的PC Server,不需要昂贵的Unix服务器和磁盘阵列;
海量数据分布压缩存储:可处理PB级别以上的结构化数据,采用hash分布、随机分布等存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以将所用空间减少1~20倍,并相应地提高I/O性能;
数据加载高效性:提供了基于策略的数据加载模式,集群整体加载速度可达2TB/h;
高扩展、高可靠:支持在线扩展,集群级、节点级和服务级高可用保障了集群某个节点宕机时集群正常工作;
高并发:支持数据的边加载边查询,单个节点并发能力大于300个用户。
- 项目背景
近年来随着中国金融期货交易所业务的不断发展,尤其在期权产品上市及做市商制度引入后,交易量大幅攀升,委托数据长远来看会爆发性增长。当前中金所实时查询分析类交互式应用使用Oracle数据库做后台计算,部分业务还需要与Hadoop平台进行数据交互。设计规划中监查业务实时高效交互式监管的数据量的大于200TB,实时或准实时接收的上游应用系统数据约每天累计几十个GB。面对数据量日益增长,目前中金所使用的 Oracle不支持节点的扩展,对性能提升支撑有限,难以满足业务持续扩展的要求,会降低所内实时查询分析类交互式应用性能,影响实时监查业务开展效率。在此背景下,中金所计划采用具有高性能分析计算、能支撑高并发加载大量数据且具有高效支撑与Oracle、Hadoop平台的数据加载导出功能的MPP数据库。
当前,国内金融业采用基于开放X86的MPP架构数据库构建结构化数据处理平台及分析应用已经成为趋势。在这背景下,中金所计划采用海量并行计算(MPP)架构数据库产品技术,一是用于监查业务实时高效交互式监管的需要;二是满足新产品、新业务长远发展,性能提升的水平拓展需要。
采用开放X86的MPP架构分析型数据库,支持中金所后端数据类应用系统数据库由集中式架构向分布式架构转型,在成本可控的同时,大幅提高大数据计算处理能力,通过增加机器资源实现稳定的性能提升和容量扩大,支持实时的数据处理分析,提升业务体验。
- 关注问题
- 性能瓶颈:目前实时交易监察系统使用的Oracle RAC双机数据库难以支撑近
100TB级数据量的实时查询分析要求;
- 业务扩展:实时交易监察系统未来会接入更多的交易平台系统,当前数据库架构
无法支撑业务发展需求;
- 海量数据:目前实时交易监察系统存量数据已经接近100TB级的数据量,每天新
增实时数据量近10亿条;
- 成本控制:鉴于应用场景中Oracle低性价比经验,要求新系统基于X86和Linux开
放平台搭建,具备不断的线性扩展能力.
项目采用GBase 8a MPP Cluster集群作为数据管理,同时支撑分析应用层上的各类应用,实时分析、发现异常交易操作。GBase 8a集群面向分析型应用领域,以列为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、快速智能索引等新型数据处理技术,在查询、统计、分析以及批量加载性能上具备突出的优势。GBase 8a集群同时兼备高性能实时数据入库、实时数据分析能力,交易数据通过数据同步层的Kafka实时同步至GBase 8a集群。
金融期货交易所数据平台架构图
一期共部署1套集群,共6个节点,部署在普通的X86服务器上,软硬件采购成本和维护成本有效降低。
极高性能:提供每小时加载10T数据的加载能力,完全满足在线监查系统每秒近100MB万条记录数据加载要求;
分析性能有效提升:实时分析效率比原有系统有指数级的提升,从之前的分钟级大幅提升至秒级或毫秒级;
高可扩展性:集群采用Shared-Nothing架构,支持不中断业务在线按需横向扩展,满足业务系统对存储容量和计算能力的需求。
38.1项目概况
- 项目背景
信息技术应用创新发展是目前我国的一项国家战略,也是当今形势下国家经济发展的新动能。发展信创是为了解决本质安全的问题。本质安全也就是将其变成自己可掌控、可研究、可发展、可生产的,通过发展信创产业构建自己的IT产业标准和生态,使得IT产品和技术安全可控。
为响应国家发展战略,中信证券股份有限公司将对外报送数仓系统进行数据库国产化替代进行立项。在中信证券信息技术中心的统一部署下,启动中信证券国产分析型数据库(对外报送数仓)系统的建设工作,报送数仓的主要模块包括:数据采集、模型转换、报送指标计算以及报送管理等。当前对外报送数仓是一个4节点的Greenplum一体机的数据库。本次采购目标是实现对外报送数仓项目的全面国产化,包括服务器、操作系统及数据库的国产化替代。
- 关注问题
本项目选型产品需要满足如下要求:
- 成熟案例要求:所选产品要有典型成功案例,证明已经经过大规模数据的持久验证;
- 三方评测要求:在国家认可的权威第三方机构如工业和信息化部计算机与微电子发展研究中心(简称中国软件测评中心)或中国信息通信研究院(简称信通院)完成国产服务器、国产操作系统上的兼容性认证,并提供有测试结果的真实可信的证明文件复印件;
- 国产服务器兼容:所选产品要有在国产服务器上运行的成功案例,或者做过兼容性验证,有兼容性适配的证明文件;
- 国产操作系统兼容:所选产品要有在国产操作系统上运行的成功案例,或者做过兼容性验证,有兼容性适配的证明文件;
- 数据、数据库对象、应用代码大部分迁移时,能够使用自动化迁移工具迁移。
- 建设要求
完成国产替代,包括国产服务器、国产操作系统及国产分析型数据库的替代,满足兼容性及性能要求。
38.2解决方案
原对外报送数仓是一个4节点的Greenplum一体机的数据库,集市采用oracle搭建,本次采购目标实现国产化,包括服务器、操作系统及数据库的国产化替代。
新系统采用GBase 8a MPP Cluster集群搭建,GBase 8a MPP面向分析型应用领域,以列为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、快速智能索引等新型数据处理技术,在查询、统计、分析以及批量加载性能上具备突出的优势。
交易数据通过数据同步层的informatica批量同步加载至数据管理层的GBase 8a MPP集群。需要支撑采集任务(11个系统19个任务480张数据库表)、转换任务(简单归历史转换任务394个),计算程序(8个转换任务组,共计175个)。
中信证券对外报送数仓系统架构图
38.3应用效果
- 实施情况
本项目共部署1套集群,共10个节点,其中5个管理节点,10个数据节点,库内数据达18T。
- 效果及价值
成本可控、国产化、可扩展:通过使用国产设备建立分布式集群,替换国外Greenplum一体机,降低维护成本,现实系统未来扩展成本可控,采用全国产可控组件实现自主可控,保障系统信息安全;
开放架构,按需水平扩展: Shared-Nothing架构,支持不中断业务在线按需扩展;
原厂服务:原厂全方位产品服务,完成数据对象迁移、数据迁移、应用迁移,保障对外报送数仓项目升级改造完。
通信行业
39.1项目概况
- 项目背景
广东联通目前的在网用户规模已经达到了 3000 万,原有基于 Cassandra 数据库的在线计费系统日志管理平台(以下简称 OCS)查询响应慢,且国内缺少完善可依赖的技术支持体系。随着 OCS 平台日志数据的持续累积,系统的性能和平台可靠性日益成为广东联通关注的重点,亟需性能强劲、技术服务体系完善的数据库产品破解当前面临的困局。
- 业务需求
广东联通客户急需解决 OCS 历史日志数据存储容量不足和查询效率低下的问题,要求改造后存储系统具有高压缩比的数据压缩能力,实现 6+1个月的历史清单数据存储;提高海量数据的查询效率,将查询响应时间控制在3s以下;数据库产品具备完善的技术服务体系,确保用户在平台出现技术故障时能够得到及时专业的服务保障。
39.2解决方案
本方案采用 GBase 8a MPP Cluster 构建了 10 个计算节点的 OCS 历史日志存储集群,通过列存储、自适应压缩技术实现了 1:5 的高效数据压缩能力;使用智能索引技术,查询效率有效提升,响应时间 3 秒以下;使用 Safe Group 节点备份机制,充分保障了系统的高可靠。
图1- 1广东联通OCS系统云清单项目架构图
39.3应用效果
- 实施情况
平台共部署10节点,数据总量已达到 77TB 。
- 效果及价值
性能提升:提高查询性能,前台 100 并发的情况下,单月查询秒级响应;
节省存储:实现 1-10倍的数据压缩,节省存储空间,实现 6+1个月的历史清单数据存;
服务提升:降低客服平台服务等待时长,扩大日志可查询的时间范围限制,提升用户使用 OCS 系统的服务体验。
40.1项目概况
- 项目背景
随着业务的不断发展,广东联通 BSS 历史详单的存储规模迅速增长。目前,广东联通 BSS 详单每个月新增 100 多亿条记录,规模总计约 10TB。因数据规模不断膨胀,BSS 历史详单系统的数据存储正面临着严重的成本压力。而其原有基于 Oracle 10g 构建的 BSS 历史详单系统,面对海量数据存储已无法提供高效的查询响应,面向业务应用的响应性能亟待提升。
- 业务需求
为了提高 BSS 详单查询分析效率,降低详单数据存储成本,广东联通希望替换现有基于 Oracle 10g 的 BSS 历史详单库,使用列存数据库专门存放历史详单数据,同时对外提供高性能的查询服务。
BSS历史详单查询系统建设目标:
- 使用列存数据库替换现有的Oracle 10g历史详单库;
- 存储当前月(不包括当前月)往前至少6个月的BSS历史详单数据,在存储富足的情况下,6个月以前的数据尽可能利用高压缩比存储更多历史月份的数据;
- 实现高效压缩态存储,节省存储设备成本;
- 对外提供高性能的查询分析响应能力。
40.2解决方案
本期改造项目实施部署 10 个节点的 GBase 8a MPP Cluster 数据库集群环境,10 台节点采用 X86 PC Server 服务器,其中 8 台作为集群计算节点, 2 台服务器作为 GBase 8a MPP Cluster 集群数据加载机使用,提高数据加载性能和高可用。
图2- 1广东联通BSS详单查询改造项目架构图
40.3应用效果
- 实施情况
平台共部署10个节点,数据总量已达到44TB以上。
- 效果及价值
高效低成本:运行于低成本 X86 PC Server,有效节省硬件投入成本,提供比小型机更高的处理性;
动态扩展:完全不受数据量与设备能力的限制,随着业务数据量增长,按需扩展;
高可用:基于安全组的备份策略,能够保证节点在发生故障时,不影响正常的详单查询服务;
效率提升:提供高性能的查询保障,实现秒级响应。
41.1项目概况
- 项目背景
互联网的高速发展,使得电信运营商承担了很大的流量压力,而如果运营商不对用户的行为进行分析,最终只能被管道化。广东联通智能管道系统是基于分布式计算和存储的大数据采集管控平台,融合全网、全业务、全接口数据采集,通过 DPI 及信令解析,提供比互联网公司更精准、更细粒度的用户行为大数据,成为大数据分析应用源泉。
- 需求分析
广东联通的网络数据量巨大,智能管道系统项目需要快速的将这些网络数据入库,这就要求数据库具有非常快的数据加载速度,并且,要完成海量数据的分析,就需要数据库同时具有强大的计算能力。此外,因为数据库的加载和分析是同时进行的,所以还需要数据库具有强大的并行能力。
广东联通对智能管道平台的预期如下:
- 全网全接口数据采集(Mc、Gb、IuPS、Gn、Gi ),实现网络数据全采集;
- 可对采集的数据实时解码和业务合成生成详细的用户业务记录;
- 能够实时、准确、全面的获取用户行为及网络使用情况;
- 集中式全面采集形成大数据汇集。
41.2解决方案
本项目使用 6 台 X86 服务器,安装部署 GBase 8a MPP Cluster 数据库集群,使用万兆网络将各节点进行高速互联。其中 1 台 X86 服务器作为集群的加载服务器,将 Mc、Gb、IUPS、Gn、Gi 口的数据从网络侧获取之后,快速的加载到数据库集群中。网络信令数据每 5 分钟入库一次,将前 5 分钟网络上产生的流量数据进行入库分析,形成分钟级的汇总报表。同时,按小时、日、月等粒度也分别生成不同的报表。目前,系统每天处理的数据量为 10T 左右,数据入库后针对不同接口,分别进行数据汇总,得到汇总类的报表。同时也对这些数据提供精确查询,以快速捕捉和定位网络上可能出现的问题。
图3- 1平台结构图
41.3应用效果
- 实施情况
平台共部署10节点,数据总量超过 84TB以上。
- 效果及价值
高速加载:数据加载速度可达 2T/小时,满足海量信令数据的高速加载需求;
高性能:海量数据快速计算,从海量数据中直接进行分析;
高速精确查询:快速定位,快速查询,秒级响应
42.1项目概况
- 项目背景
随着移动互联网的不断发展、智能终端迅速普及,以及移动数据流量迅猛增长,流量经营已是河北联通战略转型的重点,而流量经营的先决条件是经分系统的可持久运行。面对海量的网络数据规模,传统经分系统的数据存储、数据处理和数据分析显然无法满足河北联通日益发展的数据处理要求;同时传统小型机扩容成本高,扩展能力有限,不符合河北联通未来大数据平台技术发展规划。
- 业务需求
传统小型机+Oracle 的经分系统由于其成本与性能的限制,无法满足当前河北联通的数据处理性能要求,随着后续更多业务平台的接入,省级经分的数据规模将达到 PB 级别,现有平台完全无法承载。为了实现对用户的精准画像业,数据内容、互联网数据都将纳入统一数据平台中。在上述问题亟待解决的背景下,河北联通秉承“高效低成本”的指导原则,兼顾海量数据的存储及管理能力和海量数据的处理及分析能力,河北联通采用 GBase 8a MPP Cluster 数据库作为底层数据平台,建立起公司业务融合运营、能力对外服务的大数据平台。
42.2解决方案
本项目使用 24+2 节点 GBase 8a MPP Cluster 数据库构建核心数据仓库,采用 GBase 8a 快速加载工具,将数据快速的加载到数据仓库中。用 GBase 8a 建设核心数据仓库存储河北联通全域的高价值结构化数据,并通过对全域数据的关联分析计算,向平台应用层以及外围系统数据接口提供高度汇总的结果数据,同时直接支撑前台页面的报表查询和即席查询。
图4- 1河北联通大数据平台架构图
42.3应用效果
- 实施情况
平台共部署节点数已有最初上线24节点扩容到36节点(7个管理节点,36个数据节点),数据总量超过 500TB ,库内近4万张数据表。
- 效果及价值
高效低成本:通过使用廉价 X86 设备建立分布式集群,提供比小型机更高的处理性;
扩展更灵活:完全不受数据量与设备能力的限制,集群从 8 节点到 12 节点到 24 节点再到36节点,随需扩展;
数据更融合:全面融入省内各业务支撑系统的数据,数据保存周期更久,数据量达到 500TB以上;
迁移更安心:原厂工程师全面保障 Oracle 到 GBase 8a MPP 的数据与应用迁移,原系统零改动直接在 GBase 8a MPP上运行。
43.1项目概况
- 项目背景
上海移动经分平台应用项目,目前已有将近2000万移动用户,承载数据量约为60TB,原有“小型机+磁阵”的查询系统已远远不能满足经分业务需求。为提升客户满意度,提高查询的响应速度和扩展能力,同时满足业务内部使用需求,上海移动急需进行经分平台应用改造。
- 业务需求
上海移动经分平台应用涵盖一经、地市经分和领导日报等业务,应用过程中不断暴露出各种业务问题,主要包括:查询速度慢、数据统计慢、数据存储容量有限、扩展能力差等。
基于这些问题,经分平台应用项目需满足:存储近3个月B域相关数据,替代原有经分传统数据库,保障数据快速入库;支持各类统计功能,支持生成统计报表,为统计分析提供技术支持及优化;支持复杂关联处理和即席查询能力,支持历史业务数据查询,支持准实时的复杂性详单查询,支持大批量详单导出。
43.2解决方案
项目采用基于华为TaiShan ARM芯片服务器+Linux+SATA的GBase 8a MPP Cluster分布式并行数据库集群的系统建设方案,替换原有系统,建立以列存储、高压缩为核心技术的云架构经分业务应用平台。目前采用862版本联邦架构集群进行对称性部署,12台管理计算节点,存储3个月的B域数据,对用户资料备份数据实现高压缩存储,实现业务数据的实时加载,查询响应时间降低到10s以下。复杂查询系统的系统架构图如下,以云存储架构的GBase 8a MPP Cluster为基础,支撑了详单查询系统、计费业务系统和经分系统的业务应用,实现了“一库三用”,体现了系统高速度、高压缩、高可用的优势。
图5- 1上海移动经分平台应用总体架构
43.3应用效果
- 实施情况
经分库部署规模为12节点(3个管理节点+12个数据节点),正常情况下并发10以下。
- 效果及价值
系统云化:经分平台应用项目积极响应中国移动总部“积极探索云计算的建设”目标,降低了系统运行维护成本,提升了业务扩展性能;
国产化:系统基于华为TaiShan服务器+GBase 8a MPP国产数据库构建,实现了即席查询、详单类经分统计、数据备份等业务功能,体现了上海移动公司平台国产化的应用价值;
性能提升:即席查询实现秒级响应,月数据查询10秒以内;统计性能较以前提高10倍以上;高压缩比节省了大量存储空间,以前存储1个月的空间现在能存储3个月;
按需扩展:集群节点根据需求可随时增加,且保证性能随着节点的增加而线性提升。
44.1项目概况
- 项目背景
北京公司经营分析系统2004年正式开始全面建设和整合,经分系统集中支撑了各部门、各分公司的管理分析需求;通过KPI、报表、专题分析等方式,为公司考核、移动领导的决策、各部门的管理提供了依据,并通过数据稽核等方式一定程度上保证了数据的真实性和分析的有效性。经营分析系统建设运营11年来,紧跟企业发展步伐,以完备的数据、准确的统计分析、周到细致的支撑,充分发挥了“科学决策之器”、“针对性营销和客户挽留之器”、“精细化管理之器”的重要作用。
北京移动企业数据中心项目,系中国移动北京分公司自2004至2015年正式开始全面建设和整合经分系统之后,历时5年进行打造不断优化的企业数据中心平台。该平台的建设为紧跟新的市场发展需求、进一步面向全价值链进行从产品、客户、资源、渠道、基建等多角度挖掘分析,形成面向优化和加强面对4G业务以及已经到来的5G、流量、存量、终端、数据业务等多方面支撑运营能力,综合反映绩效成果,动态监控实时预警,迅速响应决策支撑需求。
通过建设新数据中心,对企业数据进行集中采集、加工整合、规范模型,建立统一数据视图,实现数据的可管、可控、可用,为业务提升与创新奠定基础,以达到对内增效、对外创收的目标;利用目前成熟的大数据处理技术,在数据中心建设中通过基础设施云化、数据服务标准化封装等技术手段,对经分架构体系进行优化设计,实现投资降本增效、应用百花齐放和体系优化提升的目标。
- 业务需求
大数据时代的背景下老的系统构架的定位已经跟不上企业战略转型的诉求。随着市场竞争的进一步加剧,北京公司对内面临传统业务营收不断下滑,对外面临来自新兴OTT业务发展带来的巨大冲击挑战,在重重压力下,市场对公司的价值分析能力和决策支撑能力提出更高要求。本项目在北京移动数据中心,通过整合B域、O域和M域,实现企业有价值数据的集中存储,并对外围应用提供必要的数据计算、数据存储服务。业务实际需求如下:
平台层面:主要为企业级数据中心提供数据存储和数据处理能力,提供统一的集成平台环境,将硬件和软件做有效的集成。搭建混搭架构计算框架,实现海量数据的分布式处理;通过新技术,降低系统总体拥有成本,引入批处理、流处理技术,验证大数据、准实时处理架构;增加数据源,丰富应用和数据价值能力;
功能层面:主要为企业级数据中心提供数据整合、数据清洗&转换&加载、数据共享、数据分析与查询、数据挖掘、数据管理能力;提供新的IT功能架构,提供多样化数据的ETL、统一的数据计算与存储、数据共享、多租户的应用开发、数据平台管控。从硬件平台基础设施上,建立企业级的ETL平台,建立管控平台,简化运维,降低门槛,现有的运维开发知识能够顺利平移到新平台;
业务层面:主要为数据中心提供多域的数据模型、标准的元数据、数据处理调度任务、后台处理程序和前台应用程序,以及数据产品。实现对环境中系统资源、软件资源、业务应用、参与人员等各种资源统一管理,综合监控。建设“多维成本分析”,“流量经营”,“位置信息服务平台”三个重点应用。并迁移现有经分应用“自助分析平台”,“ 集团一经接口”,“市场运营监控中心”以及成熟稳定的数据模型。
44.2解决方案
北京移动数据中心系统采用PC Server+Linux+本地磁盘的部署模式,100(一经主数据仓库)+40(一经专用库)+12(自助分析平台)节点规模,系统整体采用多种分布式存储处理平台的混搭架构,Hadoop的Map/Reduce、Hive处理海量的非结构/半结构化数据的批处理场景;GBase 8a MPP Cluster数据库处理结构化的海量数据(包括批处理和准实时的交互处理)(本方案在应用展示层采用MySQL数据库配合GBase 8a MPP Cluster数据库完成部分与应用的交互处理;流式数据处理框架Streams、MQ、VlotDB实现流处理及复杂数据处理,支撑实时营销场景。MPP与Hadoop之间的数据传输速度,每小时的传输速度最快可以达到30T左右。
GBase 8a MPP Cluster数据库在系统中作为整个企业数据中心的主数据仓库,担负处理数据的深度加工和BOM域之间的数据融合,即承担了整个数据供应链中最复杂的数据加工处理过程,具体功能详见图6- 2GBase 8a MPP Cluster功能架构图。
图6- 2GBase 8a MPP Cluster功能架构图
整个系统中GBase 8a MPP Cluster数据来源主要是上游数据如boss和crm系统将数据传到接口机,此时的数据分为结构化数据和非结构化数据,非结构数据的批处理由Hadoop进行处理,然后加载到MPP中再次进行加工使用;结构化数据处理直接加载到MPP数据库完成。
44.3应用效果
- 实施情况
本项目从2015年至2017年,已完成项目1期2期的建设。迁移老DB2系统业务30余个(包括最重要的一经业务系统),历经二次扩容,一次扩增新集群,形成目前北京公司经营分析系统100(一经主数据仓库)+40(一经专用库)+12(自助分析平台)节点的集群部署规模,目前库内总数据量约2.5PB。 日处理数据量:每日库内处理数据量约30T。日处理任务量,每日库内处理任务数达到50万个左右。
- 2017年完成第一次升级扩容,由原60+6节点扩展为80+12节点;
- 2018年完成第二次扩容,由原80+12节点扩展为100+12节点(两套集群);
- 2019年一经40节点上线,由100+12节点扩展为100+40+12节点(三套集群)。
- 效果及价值
扩展系统数据处理范围:系统采用GBase 8a MPP分布式技术加多种技术混搭,实现了系统可处理的数据范围的扩展,全面融合运营商的B域/O域/M域数据,为全价值链分析打下了数据基础;实现了从产品、客户、资源、渠道、基建等多角度挖掘分析;GBase 8a MPP在系统中作为跨域数据融合和关联的处理中心,实现了对海量结构化数据的高效关联分析和统计运算,达成了对决策支撑的迅速响应需求。
满足系统更长周期数据可扩展性存储,管理和处理:GBase 8a MPP的分布式可扩展能力实现系统对更长周期的海量数据的存储管理,能够从更长的数据积淀中观察数据的深度规律,满足了企业数据中心支撑“大数据”的本质诉求。
提高系统数据入库时间:GBase 8a MPP 100节点作为主数据仓库,整体裸数据文件入库速度最高可达20TB/小时,从ETLA接口加载速度可以达到20多T每小时,从Hadoop加载的速度可以达到30T每小时。比原有DB2数据库平均180GB/小时的速度,性能提高了100倍以上。缩短ODS层数据入库时间,间接提升了系统整个保障性指标的出据速度。跑批任务(基于DB2环境)由原来的每天6点提高到了每天5点。
数据库操作性能提升:GBase 8a MPP数据库的列存、智能索引等特性对于一般分析、统计类库内操作性能优势明显高db2数据库。一般统计查询类操作性能提升100%以上,更新类操作性能提升30%-50%以上。
提升系统存储空间利用率:GBase 8a MPP数据库主副本和55压缩存储方式存储数据的功能,在保证集群高可用的同时,提升系统存储容量使用率50%。对于超过4个月的历史数据采用了更高级别的13压缩模式,使数据容量进一步降至未压缩前的1/4,极大提高了整个系统的数据生命周期。
降低系统建设软硬件成本:GBase 8a MPP数据库的普通X86架构下的PC Server+源Linux操作系统部署方式,降低了对软硬件环境的依赖成本。从而间接的降低了系统的软硬件投入成本。
45.1项目概况
- 项目背景
近年随着云南移动的业务量激增,企业的业务分析系统不断面临日益增长的数据处理规模的压力,并且以精细化、个性化服务的理念做驱动,运营商企业对经营分析的处理模型愈加复杂,由此业务对系统的数据承载能力和分析处理能力提出了更高的要求。基于以上要求,中国移动云南经分大数据平台改造工程,计划引入 MPP 关系型数据库来实现整体性能提升。
- 业务需求
开放型:对于日益变化的技术发展趋势,为使企业 IT 系统的发展能够追随技术发展的大势,建立开放与标准化的 IT 系统是企业赖以生存发展的基础。要求基于业界开放式标准,系统硬件采用基于 X86 PC Server 的标准服务器平台;而在软件方面,构建基于分布式的云化数据库平台也是适应开放性的根本所在。
高扩展性:能够根据业务需求满足系统规模的动态扩展,以灵活适应未来业务规模和数据量的不断增长,并使系统整体部署策略能够满足未来的各种变化和发展因素。
数据加工复杂性的提高和周期的缩短:随着精细化、个性化服务理念的植入,对企业经营分析系统的数据模型提出了更复杂的处理要求,基于大量数据的关系型关联运算和指标统计的实现逻辑也相应变得复杂,而一方面企业为了实现更加灵活和迅速的营销响应速度,对关键指标和报表的数据输出处理时间也提出了更高要求。
高可用性和稳定性:在基于 X86 PC Server 等低价格硬件平台上构筑可靠的核心经营分析业务系统,所构建的分布式系统必须具备成熟的高可用技术。并且作为一个大规模分布式系统除了保证系统的耐故障特性以外,为了保证系统的稳定运行,还需要系统通过内部的自律性资源管理能力和合理的任务调度控制来保证系统的稳定性。
45.2解决方案
MPP 经分仓库数据库和 DB 构建的传统经分主库共同组构为实现云南移动经分业务的客户分析类、服务分析类、渠道分析类等各类主题域分析的统一数据分析平台。为使企业构建面向更大规模数据和更复杂的挖掘分析处理打下平台建设基础。做为本项目的经分数据仓库的扩容思路,扩容后经分系统下的各个平台要素之间的数据处理具体流程如下:
- 从 BOSS、计费、CRM 等业务系统收集业务原始数据;
- 经传统系统下的 Informatica、SAS 等 ETL 工具对数据进行清洗和转换;
- 将清洗后数据通过 ETL 工具的加载功能分路传送到当前的 Oracle/DB2 经分
主库和 MPP 接口机上。接口机完成最终的数据向 GBase 8a MPP Cluster 数据库的加载。
数据平台划分为由传统集中式数据库与 MPP 分布式数据库共同构建的集成式数据仓库平台。新的数据平台可以融合 MPP 分布式数据库的可扩展优势,也可集成传统数据仓库平台上对高价值密度数据的强一致性等各类数据可靠性保证。
图7- 1云南移动经分系统架构图
45.3应用效果
- 实施情况
平台共部署四套集群,共计部署89个节点,数据量达PB级,其中:
- 主仓:64节点规模(7管理+64数据)混合,数据总量710T,库内表30万张,日增数据30T左右;
- 集市:10节点规模(5管理+10数据)混合,数据总量186T ,库内表20万张表+300万视图,日增数据20T;
- 一经:12节点规模(5管理+12数据)混合,数据总量达到139T,库内表约为11万 张,日增数据10T;
- 数据之家:3节点规模(3管理+3数据)混合,数据总量1.5T ,库内表约为800张,日增数据量100G。
- 效果及价值
低成本:GBase 8a MPP Cluster 数据库运行于低成本的 X86 PC Server,有效节省硬件投入成本,将扩容成本降为原来的 1/10 左右;
动态扩展:GBase 8a MPP Cluster 数据库节点的水平横向扩展模式,动态扩展无须停止服务,保证服务连贯性;
高可用:GBase 8a MPP Cluster 数据库提升整个系统的协同效率,基于安全组的备份策略,能够保证某节点在发生故障时,不影响系统对外提供服务的连续性
46.1项目概况
- 项目背景
随着中国移动各项业务的不断开展和深入,经营分析系统和大数据专题分析平台的建设将围绕经营决策工作提供更加全面、深入、高效的数据展开,在这一背景下运营商企业不断推进B域、O域包括M域的数据融合,传统经分系统和大数据平台也随之需要承载更大的数据量和业务量。随着承载量的剧增,对经分系统的数据模型转换、低度汇总、高度汇总等核心主仓的处理能力和存储能力提出了更大需求。具体表现在经分系统从生产数据抽取,转换和加载,到数据仓库中的加工统计和汇总,最终到展现数据和报表输出的过程,迫切要求缩短数据从生产环节到消费环节的周期。而在此情形下,运营商企业为了对经分系统和大数据平台提供持续的支撑能力,面临着巨大的持续的扩容成本和维护成本的压力,而作为基于X86 PC服务器的分布式存储和计算策略,在解决了大数据的处理压力的同时,为企业提供了扩展性强并且廉价的解决方案。此项目就是针对日益加大的山东移动的经分数据压力和各类专题分析场景的压力,实施了基于X86 PC服务器的大数据平台云化改造项目,通过基于Hadoop的ETL平台和基于MPP数据仓库平台的混搭融合,顺利地支撑起山东移动大数据平台历史海量数据的存储和各类大数据专题分析处理的需求。
- 业务需求
数据规模大并且增长快速:
- 活跃用户7200万,并且系统需要采集流量分析相关的数据。日均数据量超过2.1T;
- 数据总规模增长迅速,目前已经到达PB级;
- 作为未来趋势,系统计算处理能力及存储能力还面临不断扩展的需求。
现有系统响应提速:
- 系统的并发和负荷较大,急需提高在高度并发条件下的响应能力;
- 对包括用户标签等的宽表间的结合计算能力;
- 从源数据抽取到数据报表层生成的数据生产时间的短缩。
数据高可用性需求:
- 对于包括日处理,月处理,一经,二经,集市处理的各类经分处理,由于系统故障而发生的延迟不得造成1个工作日以上的延迟;
- 对于基于x86 PC服务器的平台架构,系统需要高度的容错和自律恢复能力。
46.2解决方案
大数据平台中原有MPP集群根据功能需要分为两个部分:一部分是40个节点(浪潮主机的历史库集群;另一部分是省经分72×72主备双活集群+26节点的地市经分集群。
随着客户用户数量、数据大规模快速增长,为满足业务需求,本方案主要现有省经分72×72主备双活集群进行扩容,采用GBase 8a最新虚拟集群技术,将大集群进行物理垂直分割,形成多个逻辑子集群,各逻辑子集群可以根据不同业务的存储与技术需求,独立规划和扩展集群规模和计算资源,计划采用72*72(X86)的双活模式迁移数据,迁移完成后72
节点扩容至160节点,最终形成160*160(X86)主备双活模式,承载云经分中一经和二经
的业务应用,主集群计算后的数据以准实时的方式同步给备集群,当主集群出现故障时备集
群可以进行切换,完成生产任务的接管,为大数据平台7*24小时业务稳定运行提供坚实保障。
同时利用GBase UP的融合统一管理能力,融合OLTP+OLAP+Hadoop三种异构引擎,40节点的GBase 8a MPP作为地市经分数据仓库负责存储、计算、汇总地市经分数据,实现地市Oracle数据库可以跨引擎透明访问GBase 8a地市经分数据仓库,Hadoop采用亚信基于开源Hadoop 2.0开发的产品,配合地市经分完成非结构化数据的存储、加工和历史数据备份等工作。
图8- 1大数据平台总体架构图
大数据平台系统架构采用Hadoop ETL平台与MPP经分主库的混搭结构,处理和存储来自/B/O/M域的跨域数据。数据在从源数据系统采集之后,先在Hadoop ETL平台进行数据的结构化、清洗、数据的轻度汇总等;之后Hadoop ETL的输出数据在通过GBase 8a MPP集群的数据分发工具将ETL输出数据加载至MPP分布式数据库;作为经分系统历史库,GBase 8a MPP Cluster处理从明细层的ODS、DWD到轻度汇总的DWA和高度汇总的ST层的数据加工和各层数据之间的转换。
图8- 2平台数据存储及计算图
46.3应用效果
- 实施情况
该项目从2012-至今历时四个建设阶段:云试点(2012-2013已完成)、仓库云化(已2013.8-2014.11完成)、大数据平台建设(2014-至今进行中)、大数据平台运营(2014-至今进行中)。平台部署情况:
- 基于X86云经分仓库160节点,目前为经分生产集群。
- 基于X86云经分仓库40节点,目前为地市经分生产集群。
- 基于浪潮X86数据仓库40节点,目前为大数据历史库集群。
- 基于X86云经分仓库26节点,目前为地市自助分析平台集群。
平台生产集群数据量达到1PB。共183485张表,每天日接口数据27TB数据文件,GPRS话单表单日52亿数据;月初加载月接口数据处理5T数据文件,最大表773列,最大表586亿行;库内日调度作业约为4300个,日终加工时间约为18小时,月调度作业2510个,月终加工时间约为64小时。
- 效果及价值
低成本高性:GBase MPP数据库集群运行于低成本X86 PC服务器,新系统扩容后,新系统成本是原系统的1/10,但性能远超原系统。
混搭架构支撑海量数据:通过分布式计算和存储以及Hadoop + MPP的混搭结构有效支撑海量数据(集群支持最大192计算节点,有效处理PB级数据)。
高可用:GBase MPP数据库集群通过合理配置能够有效实现均衡负载,充分发挥每一个节点的计算能力,提升整个系统的协同效率。基于多副本的备份策略,能够保证节点即使在发生故障时,系统仍能连续对外提供服务。
实现深度精细化业务分析:高效的数据分析能力帮助客户应对复杂性强、效率及实时性要求高的场景,有效管理海量数据,实现对各类数据的多维深入分析,准确挖掘数据价值。帮助客户实现渠道选址优化、长漫包触点营销校园市场监控、校园营销、集团客户识别、上网日志查询等大数据专题分析并不断扩展分析场景。
47.1项目概况
- 项目背景
根据对上海电信现有 ODS/EDW 系统调查和分析,目前上海电信 ODS/EDW 基础数据和应用系统范畴存在以下几类问题:
-
-
-
- 数据库存储紧缺;
- ETL 性能瓶颈,后续增加应用会出现争抢资源的现象,导致程序整体性能下降;
- 数据库 CPU、内存长期处于峰值;
- 响应省公司去 IOE、云化的要求;
- 实现全景视图小时级看数的要求。
-
-
针对这些问题,上海电信急需规划和设计MPP 数据架构体系,构建分布式数据处理平台作为 ODS/EDW 数据仓库的有益补充。本项目采用GBase 8a MPP Cluster 数据库,其大规模并行处理架构高效的处理能力和强大的关联查询性能,突破目前大数据量业务数据加载的性能瓶颈,克服传统的关系型数据库高成本、运算时间长、分析结果及业务报表滞后等劣势,并且采用 PC Server 模式,大大节约新购存储成本。
- 业务需求
- 对业务部门需求提供实时响应;
- 提高用户即席查询、关联查询效率;
- 突破目前业务数据加载的性能瓶颈,克服传统的关系型数据库高成本、运算时间
长、分析结果及业务报表滞后等劣势;
- 集团宽表全网数据上传接口进行全面提速;
- 建设基础仓库包括产品销售品、客户类、订单类、公共类及维度类五大主题域,
共计新增 26个模型及对应的加载程序的开发。
47.2解决方案
目前的EDA 整体架构中包括了两大平台:传统的ODS/EDW 平台和新增的大数据平台(HADOOP/MPP),两者共享公共设施,其中包括数据采集网关、数据运营管理系统等。新增的基于 ODS/EDW 上的结构化数据应用分析需求将逐步迁移到 MPP (GBASE),同时逐步将原有 ODS/EDW 上的数据和应用向 MPP (GBASE)迁移,平台整体架构见下图。
图9- 1数据平台整体架构
本期改造项目部署2套集群。核心库1套集群72节点和只读库1套集群12节点,两集群间使用dblink,由核心库向只读库同步数据库,日任务和月任务合计2000个,包括增量同步和全量同步。所有业务的高度汇总和分析,集团宽表处理及上传,本地宽表层处理,本地汇总层处理全部迁移至 MPP 平台,销售管控体系、全景销售视图相关程序也同时迁移上去。迁移内容主要包含产品域、参与人域、账务域、事件域、营销域等五大主题域及其他数据集市相关程序及数据。
图9- 数据平台业务架构图
47.3应用效果
- 实施情况
平台目前共部署2套集群,84节点规模,目前2套集群数据量已达400TB,库内表达6万张,其中:
核心库:7+72 coor复用,一主两备,数据量达340TB ,库内表5万张左右 日增数据
量2TB ,业务并发达250~300;
只读库:5+12 coor复用,一主一备 数据量达60TB ,库内1万表左右, 日增数据量300GB,业务并发 20。
- 效果及价值
运营提速:满足集团要求的全网数据运营进入提速阶段,每天10点之前确保产品实例,销售品等全量数据的上传;
即席查询:自助报表查询实现秒级响应,解决部分大数据量应用查询效率低下问题,有效提升用户感知和满意度;
性能提升:利用大规模并行处理架构高效的处理能力和强大的关联查询性能,突破目前大数据量业务数据加载的性能瓶颈,克服传统的关系型数据库高成本、运算时间长、分析结果及业务报表滞后等劣势;
高扩展:原有服务器的垂直纵向扩展模式改为依据数据量的水平横向扩展模式,支持在线线性扩展,且性能随着节点的增加而线性提升;
高可用:节点级故障时具备在线替换、修补节点能力;具备快速故障切换,数据快速恢复能力;
低成本:基于 X86 PC Server,有效节省硬件投入成本。响应去 IOE 的发展趋势。
48.1项目概况
- 项目背景
2016年7月,国家发展改革委、交通运输部、中国铁路总公司联合发布了《中长期铁路网规划》,勾画了新时期”八纵八横”高速铁路网的宏大蓝图。铁科院为配合这一战略,着手开展新一代客票及电子支付平台等系统升级和扩容工程。
工程涉及到的系统有:新一代客票系统、铁路电子支付平台、短信及语音平台等7个。本期铁科院的项目属于新一代客票系统。铁路新一代客票系统的大数据应用创新主要聚焦12306互联网风控、票额预分应用和针对12306用户画像三个方面:
12306互联网风控:主要是用来解决互联网售票比较严峻的抢票等应用场景。新一代客票系统通过构建风控系统实现风险的预判,然后进行精确打击。通过大数据平台,实时收集网上购票用户的行为数据,以及第三方数据,然后开展实时分析和实时计算,完成对风险的决策和管理,实现实时卡控。
票额预分应用:它以历史客运数据为基础,以列车运行图为约束,对列车的分席别OD客流进行分席别的需求预测,在客流预测的基础上,以票额最大化利用率为优化目标,实施的售票组织策略。基于大数据平台的分析,优先分配重点客流,努力保证稳定客流,科学兼顾其它客流,对销售时机和数量进行预测,通过精细化管理提升发送量和收入。
12306用户画像:铁路旅客用户画像系统是通过对铁路用户的行为数据、交易数据等进行采集、加工和分析,形成用户精准画像数据,为旅客提供精准服务推荐和个性化的客运服务,对内提升铁路客户服务能力和行业核心竞争力,对外支撑精准广告投放以及开展数据增值服务。
- 业务需求
随着客运业务的运输量增大,和数据分析种类的增多,现有系统已经愈加难以支撑当前业务的需求和数据多样化趋势。基于Sybase IQ建立的分析类系统遇到性能瓶颈,无法及时完成数据加载处理,无法有效支撑更多的分析和访问,铁科院打算引进相关平台级产品进行能力升级,寻求技术成熟、能力充分的数据平台产品,以满足现在和未来业务的性能要求。在此期间,铁科院基于Tez、Hive等SQL on Hadoop类技术应用于历史客票的分析应用,但基于Hadoop的批处理特征,主要还是局限对历史数据的批量分析场景,对于复杂且实时性要求高的分析类应用,仍然依赖Sybase IQ,铁科院此次改造,一方面要解决Sybase IQ在线分析平台的处理瓶颈问题,一方面也是解决Hadoop上客票历史库与在线分析平台的统一数据管理和统一分析问题。
- 建设要求
本期项目为扩容,在原有GBase 8a MPP的22节点集群中再增加6个节点,建设完成的28个节点进行动态数据重分布。
48.2解决方案
作为Sybase IQ的替代,通过在大数据平台中引进GBase 8a MPP数据库,增强了客户数据的分析计算能力,消除了传统Shared Disk型数据库的处理瓶颈,实现了包括多维分析在内的在线查询能力。
利用GBase UP将基于Hadoop建设的客户历史库和GBase 8a MPP在线库进行整合。用户应用可将在线库数据和历史库数据作为一个统一视图,进行查询和分析计算,使应用不用意识所查询和处理的数据的具体位置,实现应用对数据层透明化访问,并且通过标准SQL统一数据访问,降低了开发难度,防止了1个应用中SQL和HQL混在的局面。并且GBase UP可以基于标准接口对Cognos这样的第三方BI工具实现直接的数据开放,从而平滑继承之前BI应用。
基于GBase UP的跨引擎的客票数据的生命周期管理,可自动根据数据的生命周期在引擎间自动搬运数据,而对于上层应用又封装为统一视图,这种生命周期管理可综合数据价值和存储成本,实现数据的“适才适所”的分布。
基于GBase UP的大数据平台,可以将各类客运数据统合在一起,形成客运数据湖,各类客运分析应用可以基于GBase UP提供的标准化接口实现DaaS(Data as Service)式服务,从而有效共享全路局数据。
图10 1铁科院客票分析系统架构图
48.3应用效果
- 实施情况
本项目原系统GBase 8a MPP 22节点基础上进行二次扩容,在扩容到28节点,目前总数据量约240T,日增数据量100G,查询并发一般30-200。
- 效果及价值
海量数据存储和处理:基于GBase UP下的大数据平台(MPP + Hadoop)有效支撑总公司及各地方路局几十TB的数据量,并具有很好的可扩展性,可动态应对今后不断增长的数据分析需要,彻底解决之前Sybase IQ平台上数据处理能力不足的问题。
海量数据的高效分析查询:通过GBase 8a MPP数据库的分布式架构、列存、压缩存储和大规模数据并行处理能力,有效支撑了并行条件下,海量数据分析查询,即席查询能力,实现十亿级数据的秒级在线分析,并且具有线性的系统扩展能力。
数据的统一整合管理:基于GBase UP大数据平台,有效整合了MPP 和 Hadoop两大种类集群能力,将在线数据和历史数据统合成一个统一视图,并以标准SQL封装的方式,对上层应用开放数据分析和数据挖掘能力,简化了大数据应用开发,并通过数据生命周期管理等特性,降低了数据运维难度,提升了系统整体的性价比。
49.1项目概况
- 项目背景
民航统计局综合统计信息系统是目前民航应用的业务系统,该系统采集并存储了大量关于机场、运输生产及通航生产等数据信息,随着数据的不断累积,原有的业务系统再运行中更为吃力,为了更方便快捷的获取企业数据价值,民航局决定开发综合统计系统数据分析平台,对数据进行更加精细化的提取、挖掘、分析获得更大的应用价值。
- 业务需求
民航综合统计系统数据分析子平台支持灵活的系统用户、角色和权限配置。各类用户在民航统计工作中拥有不同的功能权限和数据权限。通过权限、角色配置使用户只能拥有被授予的功能权限、资源权限、动作权限、数据权限等。
民航综合统计系统数据分析平台以综合统计业务系统作为数据来源,围绕着生产统计、专业统计、其他统计、综合统计分析及系统平台这个几个相关的功能模块,依托GBASE搭建数据仓库,通过Oracle ODI工具进行ETL数据抽取,然后基于数据仓库以Cognos、Arcgis、Echarts等一系列工具对仓库数据进行可视化多维度多层次的展现,从而最终满足民航客户的需求。
- 建设要求
考虑未来业务发展需要,升级MPP数据能力平台到V9版本,支持虚拟集群能力,支持多租户管理,不同业务间数据隔离、资源隔离、故障隔离和独立扩容。
49.2解决方案
目前MPP集群承载业务为综合统计系统数据仓库,近期将加载数据到共享交换平台数据仓库和专业数据分析子系统数据仓库业务,通过升级来保证系统支持虚拟集群,使多业务在虚拟集群下高效有序地运行。
本期项目采用对MPP数据能力平台进行升级的方案,以满足更多种类的数据统计和分析业务需要。
考虑未来业务发展需要,升级MPP数据能力平台到V9版本,支持虚拟集群能力,支持多租户管理,不同业务间数据隔离、资源隔离、故障隔离和独立扩容,同时未来考虑增加服务器数量,并通过物理隔离,即每个业务的数据部署在若干服务器组成的虚拟集群中,保证数据节点硬件隔离,共同使用现有的集群管理节点,租户间数据节点硬件隔离,确保租户间不会相互影响。
图11- 1系统架构图
49.3应用效果
- 实施情况
该平台部署6节点(6个数据节点,3个管理节点),数据总量约2T,库内表约200张左右。
- 效果及价值
通过本次升级项目,使原有MPP集群支持虚拟集群功能,更好地规划MPP大数据平台的使用职责,实现不同业务的逻辑隔离。提升现有数据库应用系统的可靠性和可扩展性。
50.1项目概况
- 项目背景
“网上国网”是由国家电网公司打造的一款掌上电力互动服务平台。主要为客户提供通过手机进行支付购电、用电查询、信息订阅、在线客服等相关电力业务。其功能分别有:支付购电、用电查询、信息订阅、在线客服、网店导航、停电公告。覆盖26个省(自治区、直辖市),覆盖国土面积的88%以上,供电服务人口超过11亿人。
- 业务需求
国家电网公司要求“网上国网”服务平台应用查询性能达到毫秒级别,单表数据量在200亿行以上,之前在Oracle、Hadoop生态及国网大数据平台均无法达到毫秒级响应。
- 建设要求
支撑网上国网报表统计分析类业务:每日对300多张超1亿条(约50G)业务数据表进行抽取汇聚处理,平均每日从网省同步超1000万档案变更数据,每天汇聚超2000万的用户行为日志数据。
指标计算抽取方面:每日需对上亿数据进行批处理计算,对外提供300多个运营指标数据支撑。
基础数据下发方面:每日将网上国网汇聚后的数据下发至全网27家单位,每日下发超2000万条约15G数据。
50.2解决方案
系统采用GBase 8a MPP Cluster建设,共20个节点,目前系统每个节点数据都已经通过压缩存储,每个节点数据量都超过10TB。
业务规模:每日入库数据量30亿行以上(日增量300G以上),同时支持2000万用户的app账单及用采数据实时查询。
报表统计分析类业务:每日对300多张超1亿条(约50G)业务数据表进行抽取汇聚处理,平均每日从网省同步超1000万档案变更数据,每天汇聚超2000万的用户行为日志数据。
指标计算抽取方面:每日需对上亿数据进行批处理计算,对外提供300多个运营指标数据支撑。
基础数据下发方面:每日将网上国网汇聚后的数据下发至26省(自治区、直辖市),每日下发超4000万条约30G数据。
图12- 1网上国网报表统计分析系统架构图
50.3应用效果
- 实施情况
系统采用GBase 8a MPP Cluster建设,共20个节点(20个数据节点,3个管理节点),目前数据量约200T,日增数据量400G左右,并发一般100-500。
- 效果及价值
海量数据处理:为用户提供了性价比很高的海量并行复杂数据处理平台,帮助客实现26省(自治区、直辖市)服务11亿供电人口的,电费查询、电量电费以用能分析等业务。
高性能:系统架构高可扩展,性能随着节点数的增加而提升,保证客户接入更全面的业务数据,满足客户的业务需求。
高压缩比:为用户提供完备压缩态存储管理海量数据的能力,进一步降低客户数据仓库建设的成本,并进一步提升系统性能。
51.1项目概况
- 项目背景
根据《气象雷达发展专项规划(2017-2020年)》及《气象雷达发展专项规划(2017-2020年)实施方案》的要求,在国省构建高效的分布式实时历史一体化数据存储管理系统,满足海量数据的存取和分析时效要求。本项目是雷达数据共享平台建设的重要组成部分,有效推进国省气象雷达数据共享和气象业务应用信息化、集约化进程,需尽快启动本项目建设工作。
- 业务需求
高可用性要求:气象数据具有连续采集的特征,分布式数据库集群需要7*24小时连续运行,年故障时间累积不能超过3小时,每次不能超过半小时。
兼容性要求:将历史数据从国省现有的数据环境(主要采用Oracle数据库、MySQL数据库)迁移到分析型数据库,并支持应用的迁移和接入。
- 建设要求
在国家中心和31个省级节点,通过使用成熟的、性价比高的分布式分析型数据库,存储长时间序列历史数据,支撑气候监测预测、决策服务等业务系统对数据服务和分析的需求。
完成国家级和省级分布式分析型数据库软件的采购、安装部署、联调优化和应用接入支持工作。
气象大数据平台实现了数据全集的统一管理和服务,提供除数值预报以外各类气象数据产品加工、挖掘分析的平台计算服务;直接支撑应用,助力“云+端”业务模式的全面发展,构成集约化、标准化、开放发展的气象新业态。
51.2解决方案
GBase 8a MPP Cluster产品作为历史分析库,将现有的气象观测数据,地理信息数据,行业社会数据等基础数据信息通过Kafka实时同步到 GBase 8a数据库中,提供了长时间序列历史数据的存储与多维度的分析计算。
提供统一的数据库访问接口,实现异构数据库引擎的透明访问,方便数据统一管理和应用的迁移和开发。
图16- 1气象雷达数据共享平台整体架构图
51.3应用效果
- 实施情况
该项目部署规模国家局三套集群51节点,省局涉及部署31个省,共计31套集群,286节点。其中国家局三套集群:
- 主系统26节点(3个coordinator+23个data),数据总量25.4t,库内表2410张,日数据增量主约30G,最大170并发;
- 备份库17节点(3个coordinator+14个data),数据总量36.2t,备份库内表3610张,日增数据量约40G,最大157并发;
- 华为云库8节点(3个coordinator+5个data);数据量0.5t,库内表582张,系统并发最大8。
- 效果及价值
本项目的建设将气象行业数据与算法资源整合,使算法向数据靠拢,从而解决过去各业务系统反复调用、存储、传输带来的冗余问题,成为气象部门适应大数据时代,推进气象业务系统转型升级、优化全流程业务的重要抓手,而GBase 8a作为应用支撑库,为上层数据服务提供有力的支持。
数据全集的统一管理和服务:实现各类气象数据全集的管理,进行数值预报以外的产品加工、挖掘分析的平台计算服务。
实时数据同步:气象数据进入到事务型数据库提供业务实时查询访问,通过Kafka将事务库中的增量数据准实时的同步到 GBase 8a分析型数据库。利用 GBase 8a的数据存储、服务、分析的能力,发挥数据应用效益,为天气预报,防灾减灾等业务提供保障。
高性能分析:利用 GBase 8a集群的高性能分布式并行计算能力,有效提升气象业务的复杂分析场景性能。
52.1项目概况
- 项目背景
在基于大数据、物联网的“工业4.0”这一变革理念的指引下,煤炭工业也迎来了新一轮的变革浪潮。从煤炭行业的发展趋势来看,生产矿井对于安全形势要求越来越紧迫,井下工人的数量也在逐年递减,自动化、智能化成为生产矿井必然的趋势。而大量的有经验的安全生产专业技术人员逐渐向矿业集团公司集中,如何发挥集团人才优势、技术优势,通过大数据中心的建设,将矿井安全生产的一线原始数据送到各级专业管理人员手中,让数据“开口说话”、为煤炭行业服务,解决企业安全生产的实际问题,进而影响煤炭行业发展方向、区域资源配置,促使煤炭企业安全、生产、经营管理决策更加客观高效,成为摆在企业信息化发展过程中亟待解决的问题。建设企业大数据中心,已经成为当前各大煤炭企业实现矿山透明化开采,提升安全生产和经济效益的突破口和着力点。
- 关注问题
随着对矿井生产安全要求的不断提高,生产矿井的井下一线员工也呈现出招工难、人员老化、逐年递减的趋势,迫使煤炭集团企业的安全生产管理也必须向生产一线靠拢,打通生产一线同集团各级专业技术部门的壁垒,让集团专业技术人员能够精准掌握生产一线实时情况,使得各项管理和指令趋向于扁平化,制定的各项措施针对性更强,实效更高。同时随着煤炭企业信息化、自动化的不断融合应用,产生了大量的数据信息,数据的重要性日益显著,如何能够更好为矿井管理人员提升效率,为矿井安全生产保驾护航,成为当前摆在企业信息化发展过程中亟待解决的问题。
因此,迫切需要立足于企业的内部需求,通过大数据中心建设,实现集团领导对企业安全生产、经营管理和市场政策信息的实时掌控,实现关键领域数据的精准推送、满足领导决策,同时通过大数据深入挖掘分析,破解企业生产经营过程中的各类难题并服务于企业安全生产。
- 建设要求
某矿集团大数据中心建设,应以高效、通用为原则,应选用成熟、高效、稳健的技术架构,满足某矿集团未来大数据的分析利用和数据挖掘,实现企业级的数据标准化、数据治理等数据管理过程,集成整合集团现有业务系统,建设集团公司大数据中心,实现集团全域数据的可视、可查,跨专业、跨部门的大数据分析和有针对场景的业务建模、数据挖掘等,对安全生产、经营管理起到实际指导和决策依据作用。
52.2解决方案
南大通用大规模分析型数据库集群产品GBase 8a MPP作为集团大数据中心的核心数据平台,需要同管理信息化系统进行集成,采集大量的关系型数据。经营数据、监测数据、监控数据、地图数据通过接口汇聚进入GBase 8a MPP,满足某矿集团全部数据“统一采集、统一存储、统一管理、统一运营、统一服务”的需求,为集团公司及其权属单位提供全栈大数据服务,包括技术平台、数据应用及分析、数据服务等。
图17- 1山东省某矿业大数据中心整体架构图
52.3应用效果
- 实施情况
该项目部署6节点集群(3个管理节点,6个数据节点),数据总量目前约5T左右,20并发。
- 效果及价值
某矿集团采用全部数据“统一采集、统一存储、统一管理、统一运营、统一服务”,为集团公司及其权属单位提供全栈大数据服务,包括技术平台、数据应用及分析、数据服务等。因此平台的定位不仅仅局限于使用大数据技术构建数据分析系统,更应基于云计算、云服务等理念,打造集团公司“数据即服务”的平台理念。
先进性:GBase 8a具有先进的分布式架构设计,支持分布式集群部署,支持千台级服务器部署,提升了系统的先进性。
安全性:GBase 8a具备的完善的安全管理机制。具备用户身份认证、权限管理、审计管理、日志管理、数据加密、多租户隔离、数据容灾、敏感数据脱敏等安全保密功能,确保系统的安全性。
可维护性:GBase 8a具备大数据平台安装部署、运营信息监控、日常维护都应通过图形化界面完成,从而提高可维护性。支持监控总体资源使用率、实时监测各个节点和组件的状态信息,支持关键业务KPI的监控,支持集群的自动安装和部署。
扩展性:GBase 8a具备高度的在线可扩展性,可以满足系统日益增长的应用需求和数据量。
53.1项目概况
- 项目背景
安徽省抢抓机遇、高位谋划、将“数字江淮”建设摆上战略位置,响应国家大数据战略,奋力在数字化“新赛道”上大展宏图。而“江淮大数据中心总平台”项目的建设,正是安徽省“数字江淮”的重要里程碑事件,是深入贯彻“数字中国”战略,推进“数据江淮”建设的积极践行和重要举措,是实现全省数据汇聚、共享、服务的总枢纽,满足安徽省省直部门、市级部门一站式数据服务要求的重要基础。
- 关注问题
“数字江淮”对数字化改革提出了新的挑战,平台面临数据治理、数据共享以及智慧服务等多方面、高技术的要求,需要借助新兴的大数据、人工智能等技术,实现数据的高效处理、融合共享、赋能开放等要求,以实现数据赋能经济社会发展、企业服务、群众生活的“幸福安徽”战略。
53.2解决方案
江淮大数据中心总平台的建设,通过“总平台+16个市子平台+N个省直部门分平台”的“1+16+N”框架模式体系设计,以实现全省跨部门跨层级数据资源的统分结合、互联互通、共建共享的数据服务目标。通过平台的总枢纽作用,打通政务数据、社会数据、经济数据的归集与服务脉络;通过讯飞智慧化技术实现数据的与赋能;通过南大通用GBase 8a MPP数据库并行技术,实现数据服务的高效与精准。从而推动跨行业、跨部门、跨领域的数字化服务落地、为市民带来智慧新体验。
图18- 1平台总体架构图
GBase 8a MPP集群产品做为安徽数据化转型的基础支撑,借助GBase 8a MPP集群产品的高效查询、并行服务能力,提升数据中心服务能力,实现13.5亿条政务信息资源的汇集与共享,依据政务服务以及数据共享需求完成主题模型构建,从而支撑上亿访问压力,提升智慧审批、数字政务的高效处理服务需求。
53.3应用效果
- 实施情况
该平台已经完成3个节点部署(3个管理节点,3个数据节点)。
- 效果及价值
GBase 8a MPP在“江淮大数据中心总平台”项目中,为智慧安徽提供数字化支撑保障,极大地提升了海量业务数据的查询分析性能,实现高效分析、准确评估、以及服务效能,并成为省级数据中心平台的示范标杆,为我司助力全国各省数字化转型提供了实战经验与积累。
54.1项目概况
- 项目背景
黑龙江省交通厅大数据分析平台旨在充分利用交通厅数据中心网络基础设施,运用先进的数据对接技术,整合各个业务系统相关信息资源,打造一个数据集聚、目录完整、主题鲜明、功能便捷、服务周到的省级交通大数据服务平台。
- 业务需求
该平台作为全省交通信息资源枢纽,将打破部门壁垒,整合城市交管行业、交通运输行业等行业数据资源,并汇集公路局、路政局等企事业单位和互联网资源等各类交通数据,实现多源异构数据的融合、共享、分析、计算和交互,完成交通信息的综合和深层次的挖掘利用,为高质、高效的交通管理和服务提供后台支撑。
54.2解决方案
黑龙江省交通厅大数据分析平台其整体技术架构由如下4部分组成:
数据源:大数据分析平台的数据资源包括省级数据资源总中心和公路管理、道路运输管理、航务管理、综合政务数据资源分区。
数据对接层:主要作用是通过对各数据源的数据进行采集,然后通过数据清洗、比对等过程,实现数据的导入,汇总、整理、查询相关数据。本平台中数据对接主要完成两方面的任务:一、完成省厅数据仓库的数据集成。省厅数据仓库主要从各数据分区中抽取交通行业管理部门基础数据、主题数据和可共享业务数据,形成省厅交通数据仓库;二、实现公路管理、道路运输管理、行业管理、综合政务等数据分区建立本领域的数据仓库,从各领域内的业务系统中抽取有用数据,经过清洗转换后加载到分区数据仓库,以支持本领域的数据统计分析。
数据资源层:包括数据仓库,以及共享信息库、规则库、模型库、元数据库、非结构化数据元数据库等支撑库。其中GBase 8a MPP Cluster 集群建设数据仓库,主要用于存储经过按照数据仓库模型进行数据整合后的全部数据,包括基础数据库、业务数据库、主题数据库、共享数据库等,以及根据分析业务的需求划分的多个数据分析专题库,如高速公路运输出行规律及运行监测、高速公路安全事故监测、长途客运运行监测等专题库。
应用层:包括应用支撑系统和业务分析应用,应用支撑系统为上层分析应用提供各类引擎,包括即席查询、多维分析、交互式图表、交互式报表、地理信息引擎、权限管理、语义映射、模型设计等,支撑上层应用开发;业务分析应用基于可视化的数据分析系统之上建设基于数据仓库专题的分析应用,包括统一查询、综合分析、数据预测及其它业务类分析。
图19- 1大数据分析平台业务架构图
54.3应用效果
- 实施情况
平台共部署4节点,数据总量超8TB ,每日增量50GB以上,近8千张数据表,2000多个存储过程,300并发。
目前经过部署期、适配期、已经正式上线,并进入系统稳定期。稳定期过后将承担黑龙江全省交通行业所有二级部门的数据访问支撑任务。
- 效果及价值
黑龙江省交通厅引入 GBase 8a MPP Cluster 集群建设数据仓库,实现了交通大数据平台的建设目标,带来了技术和业务方面的双重价值。
建设成本大幅降低:全平台基于中低端X86服务器打造,采用1:8入库数据压缩有效利用了本地存储空间,大幅节约了数据存储成本。低廉的硬件成本为后期数据平台的扩容预留了充足的预算空间,随着数据平台承载数据量的提升,GBase 8a Mpp的高性价比将得到凸显。
高可用性:GBase 8a MPP Cluster 的多级高可用技术全面保护黑龙江省交通厅大数据平台的多种核心数据,确保系统7×24 小时稳定运行,无单点故障风险。
安全可控:核心数仓采用掌握完全知识产权的国产分布式数据库产品,具备自主研发,安全可控的特性,全面提升银行存量数据的数据安全和业务安全。
55.1项目概况
- 项目背景
中国重汽集团在2020年开始构建企业级大数据平台,现有业务涵盖销售、服务、人力资源、车联网、物流和生产等,原平台采用Oracle+Hadoop的双数仓方式构建,DW层主要采用Hadoop的hive+hdfs的离线数据计算的技术路线,部分业务由Oracle承载;DM层主要由Oracle+帆软和Impala+Kudu+帆软的方式对外提供数据服务。
随着时间的推移,大数据平台的应用、数据量和并发访问量都会越来越高,海量结构
化数据的查询必然成为瓶颈,质量部现有280GB数据量的指标数据查询返回结果已经大于10秒,已经不能满足业务展现的需要,亟需可容纳海量结构化数据的数据库产品改进业务现状。
- 业务需求
短期需求:满足2021年业务部门(销售、服务、人力资源、生产、物流、车联网等)对大数据平台新增业务的承载能力需要,满足系统数据存储不小于10TB,最大并发数不少于200,月活人数3000/次,单日活跃人数3000/次的系统承载压力;
长期需求:融合各类数据,基于实时流处理技术、内存技术、租户和容器技术,通过新一代融合平台技术架构逐步提供完整的PaaS服务能力,逐步推动从数据平台建设到数据开放运营的过程,实现自主业务和开放业务的百花齐放;
- 建设要求
- 满足现有平台的迁移能力,快速完成由Oracle到MPP仓库的过渡;
- 满足系统数据存储结构化数据不小于10TB;
- 满足并发不小于200的情况下,查询实现秒级响应;
- 满足可承受月活、日活人数3000/次的系统承载压力;
- 满足中国重汽未来大数据平台技术发展路线。
55.2解决方案
一期工程采用南大通用 GBase 8a MPP Cluster 数据库替换Oracle重新构建大数据平台结构化数据主仓,GBase 8a 大规模分布式并行数据库集群系统处理结构化数据,能够适应OLAP计算模型的业务场景,完成数据的查询、分析。通过8a MPP集群分布式计算能力,解决了原有Oracle平台单点故障和性能瓶颈问题,采用全无共享架构,为客户提升了信息处理能力和水平,提升了客户数据分析时效性和使用体验。实现重汽大数据平台架构优化的同时提升海量结构化数据存储和计算能力。
图20- 1业务架构图
55.3应用效果
- 实施情况
本项目一期部署2个节点,后期客户会进行扩容。
- 效果及价值
架构优化:一期工程实现中国重汽大数据平台Oracle数仓的替换,满足大数据部海量结构化数据的存储和分析,为大数据平台技术架构的进一步优化奠定基础;
低成本、高扩展性:基于 X86 PC Server国产化平台的可扩展架构,对比Oracle只能纵向扩展的能力,更加节省投资,符合长期规划;
高性能:入库、汇总、查询速度比传统数据库提升 10倍以上,存储能力提升至PB级;
易用性:GBase 8a数据库提供统一的接口、SQL语法,具备丰富的企业管理器和运维监控工具,对开发和运维人员门槛较低。
56.1项目概况
- 项目背景
随着公积金缴存人数的不断增加以及既有数据的不断累积,北京住房公积金管理中心保存了海量的各类公积金数据。传统的数据管理架构基于 Oracle+小型机的模式,面对每天日益增长的数据表现出严重的性能瓶颈,且架构限制了扩展的灵活性。为此,北京住房公积金管理中心综合信息系统亟需改造升级,解决当前的性能和架构问题。
- 业务需求
为解决用户当前系统面临的性能与架构扩展灵活性问题,此升级改造项目需求主要包括:
- 使用面向大数据的分布式数据库,提升业务数据即席查询的性能;
- 分布式开放平台架构,能够随数据的增长而不断扩展;
- 国产化产品,满足政府核心业务应用,确保安全可控。
- 建设要求
功能完整性、性能效率、安全性、终端兼容性达标,完成后整个项目业务迁移上线。
18.2解决方案
住房公积金综合信息系统改造项目将采用南大通用 GBase 8a MPP Cluster 数据库构建融合数据的统一存储与管理平台,汇聚来自用人单位、银行及征信系统等的第三方数据,在综合信息系统内完成与公积金中心自身业务数据的统一存储,并在库内实现各类数据的初级汇总,按照一定的规则将分散的各类数据重新规整和计算,如数据立方体的构建,面向主题的数据集市等。
公积金综合信息系统数据采用 8 台物理机构建GBase 8a MPP Cluster集群,承载所有结构化数据的存储和计算任务。通过2台加载机完成周期性外部数据的接收和加载。在数据库数据处理逻辑层面,数据库内部划分为 ODS 层,DW 层和 DM 层,层层紧密配合,最终将数据加工成面向业务主题的高价值数据。
图22- 1公积金综合信息系统架构图
56.3应用效果
- 实施情况
本系统部署8个节点,其中4个管理节点,4个数据节点,现已完成业务迁移上线。
- 效果及价值
挖掘数据价值:实现公积金相关业务数据的统一融合管理,为上层提供更可靠、更及时的数据信息;
低成本、可扩展:基于 X86 PC Server 的平台架构,节省投资,且系统具备扩展能力,符合长期规划;
高性能:入库、汇总、查询速度比传统数据库提升 10-20 倍。
57.1项目概况
- 项目背景
青海数据魔方项目客户之前数据库环境节点为128GB*6内存,硬盘存储为1T的虚拟机,数据量为50亿左右。近年来,客户业务数据量不断增加,涉及的模型越来越多。虽然目前的资源暂时够用,但是会出现页面运算报错及等待加载时间过长的问题,客户通过对未来数据量的递增及存储需求的评估,综合得出未来几年的数据量资源会达到200亿到500亿,目前服务器的运算已无法满足百亿级的数据运算,急需进行数据库层面的配置提升及扩容来提升业务的相应速度。
- 业务需求
针对此情况解决方案为:
- 将目前的虚拟机改为实体机(服务器)CPU配置为:2颗Intel 4214 2.2G 9.6UPI 16.5M 12C 85W、配置512GB DDR4 内存、硬盘配置6块2.4TB;
- 数据节点共12个:原有6个+扩容6个。
- 建设要求
本平台扩容需满足:
- 改善并解决原有集群运算报错及等待加载时间过长的问题;
- 可存放的数据资源至少为500亿;
- 可进行百亿级的数据运算,达到秒级响应;
- 可进行在线扩容,相对于原有集群有显著的性能提升。
57.2解决方案
为满足客户业务百亿级数据运算、秒级响应及等待加载时间较长问题,客户原有6节点上再扩容6节点。
- GBase 8a MPP集群扩容到12台计算节点(加载服务器可以与节点共用,也可单独提供);
- 集群提供2套IP地址进行访问,一套用于集群内部互联和数据交换(黄线标识),一套用于外部应用访问(蓝线标识);
- GBase 8a MPP加载服务器、集群节点部署于同一万兆网络局域网内(如下图黄线所示),采用万兆网互联保证GBase 8a MPP加载机和集群节点间的数据传输带宽;
- 集群加载机和集群节点需要提供运行网IP地址,用于数据文件传输和应用层访问;
- GBase 8a MPP集群加载机、集群节点服务器均采用双网卡主备模式绑定,并与主备万兆交换机互联,避免网络单点故障造成业务中断。
57.3应用效果
本系统部署12个节点,其中3个管理节点,9个数据节点,现已完成业务迁移上线。
挖掘数据价值:数据魔方是基于大数据的研判分析系统,能够对多种数据进行数据建模,碰撞和分析,为用户可提供更可靠、更及时的数据信息;
数据整合:GBase 8a MPP Cluster集群数据库在海量存储和大规模并行计算的突出优势,实现海量数据的存储管理,通过高效的数据整合加工能力,提供一致可靠的数据视图;
低成本、可扩展:基于 X86 PC Server 的平台架构,节省投资,且系统具备扩展能力,符合长期规划;保障数据平台后续接入更多的业务系统,满足更高层次的复杂分析以及战略决策需求;
优质服务保障:GBase的全方位一体化的产品服务,为用户提供了全方位的保障。
58.1项目概况
- 项目背景
2012年7月开始山东移动经分系统开始采用GBase 8a MPP数据库对DB2进行全面替换,经过几期建设,2020年逐步建成大数据开放运营平台,通过MPP数据库服务能力为大数据平台数据对内对外服务提供助力。
随着承载量的剧增,2021年开始云经分数据主仓的72节点集群存储超过90%,存储长时间高水位可能引发频繁的硬件故障,同时数据库整体性能也会有所下降,这就要求运维团队随时监控集群情况,一方面是运维投入的增加,一方面是影响新的业务开发,所以集群扩容成为亟待解决的问题。
山东移动第五数据中心是省公司最早建设的数据中心之一,目前已饱和使用,无剩余空间用于业务扩容,所以只能将大数据平台进行跨机房搬迁和扩容。经分大数据主仓库PB级的数据量、15万张的表、每日库内超过3000个作业以及日加工时间超过16个小时等客观情况都为迁移工作带来巨大挑战。
58.2解决方案
经过周密计划,GBASE制定了2步骤的搬迁扩容方案:
- 基于GBase 8a镜像集群实现数据复制,进行机房搬迁
图25- 1双活集群图
通过GBase 8a MPP 产品V95版本搭建跨数据中心的双活集群架构,在第六数据中心创建虚拟集群VC2,要求VC2与第五数据中心VC1的集群规模、分片个数、distribution和hash map完全相同,创建VC2之后通过镜像关系开始集群的全量数据同步,同时上层应用修改JDBC连接,开始访问VC2的Coordinator节点,此时VC1的datanode节点仍然作为生产数据集群对外提供数据服务。
图25- 2双活集群图
当数据同步完成后将VC2的Coordinator向下访问数据集群修改为VC2的datanode,最终完成数据主仓的跨数据中心迁移工作。
此方案做到了业务应用的代码零改动,通过修改JDBC的连接串,重启服务就完成了系统割接,真正意义上做到了经分大数据数据主仓完全业务无感知的跨数据中心搬迁工作。
- 对搬迁完成后的集群进行节点扩容,提升大数据平台的存储容量及计算能力
最终通过7天时间的数据重分布完成了PB级数据由72节点到158节点的扩容工作,目前扩容后系统已良好运行超过30天。
58.3应用效果
- 实施情况
本项目部署了6个节点,其中3个管理节点,6个数据节点,数据量约10T左右。
- 效果及价值
通过GBase 8a MPP V95版本的虚拟集群功能,在虚拟集群中将两个同样规模和数据分布策略的子集群建立镜像关系来构建实时数据复制,可以构建大数据业务平台实时双活的容灾方案。
通过山东移动大数据平台主数据仓库的成功迁移,验证了通过虚拟集群搭建双活或容灾架构的可行性,为其他预计搭建双活或容灾集群的省公司积累了丰富经验。
59.1项目概况
- 项目背景
针对卷烟厂膨胀烟丝中剔除梗签存在的问题,本项目主要研究膨胀烟丝风选工艺环节的智能化技术及应用,主要包括:
- 梗签剔除率的智能调节与精准控制;
- 建立不同类别膨胀烟丝剔除样本库;
- 具备类别自适应性的无人化智能控制。
- 关注问题
- 1.实现膨胀烟丝风选设备的无人化、数字化的智能控制;
- 2.自动关联集控工单,实现不同类别膨胀烟丝梗签剔除量的远程控制;
- 实现风选后膨胀烟丝的纯净度≥99.5%,剔除物中含有合格烟丝≤剔除物总量的15%技术指标。
- 建设要求
- 能够处理多种数据并与各类上层应用整合,能够进行多维数据处理,支持常用的星型、雪花型模型;
- 支持标准化查询接口,具有一定的扩展能力和潜力;
- 技术符合目前数仓大数据发展需要,具有一定先进性;
- 数据容量:支持海量数据;
- 扩展能力:支持在线的横向扩展、支持超大规模的集群;
- 处理能力:每天3小时内完成复杂作业处理;
- IO能力:具备高数据压缩、并行加载等特性;
- 高可用:7×24小时不间断服务,具备备份和容灾能力,无故障数据丢失;
- 硬件环境:支持x86、Linux;
- SQL支持:标准统一,满足SQL92及JDBC、ODBC接口。
59.2解决方案
解决方案配套GBase 8a MPP cluster V9版本单节点部署以满足系统数据分析需要,配合设备自带传感器及配套开发的ModBus数据接口采集数据系统架构图如下:
图26- 1系统架构图
系统为实现智能化、精准化品控调节,建立数据模型以及数据指导,根据现有梗签剔除率影响数据,采集以下关键参数:
- 一级风选:风速、风选箱温湿度;
- 二级风选:风速、烟丝流量、管道内温湿度;
- 其它:梗签质量、风门开度信息、变频器频率、高速带电机电流、烟丝水分与温度
等。
利用输送不同烟丝质量流量时,气相压力能损失间的线性关系,构建烟丝质量流量测量的基础数据,结合流体流动的相似理论和烟丝输送的气固耦合流型规律,实现测量范围的细致划分和测量精度的升级,经过计算机计算得出稳定数据。
59.3应用效果
- 效果及价值
- 利用数据仓库技术,全面规划数据管理架构,将在设备中各个传感器分散的数据资源转化成集中的、可访问的、精确的并能利用的信息资源。
- 建立统一的数据与信息访问平台,实现企业级的统计分析和信息发布。
- 建立统一的指标维度体系,保证数据算法的唯一性和统计的正确性。
- 建立数据关联,包括数据项之间的数据关联、环节之间的数据关联,为后续智能控制提供完整可靠的数据和分析能力支持。
RTSync
60.1项目概况
- 项目背景
为积极响应银行业务上云政策,华南区某股份制银行近年实现业务转型,其业务逐步搬迁至中央银行会计核算数据集中系统(以下简称ACS云)。华南区某股份制银行资产业务数据平台中有Oracle、DB2、MySQL三种数据源。用户规划将所有资产业务涉及的业务数据采用准实时增量的方式同步到GBase 8a MPP中,以便充分利用GBase 8a MPP数据库集群的高性能分析功能,高效的为上层业务系统ACS云提供数据分析结果。要求实现三种异构数据源同步到GBase 8a数据库且彼此业务隔离;Oracle支持在线增加、删除同步表,可执行增加列的DDL操作;并为同步工具搭配图形化监控与管理界面便于运维人员管理。
- 建设需求
在华南区某股份制银行数据资产项目中RTSync实现了如下几项技术要点:
- 满足多个异构源数据库同步到一个目标数据库;
- 支持业务隔离,Oracle源同步数据失败不影响DB2源数据同步,反向也没有影响;
- Oracle全量转增量0停机,支持在线增加、删除同步表;
- 支持表同步适配Oracle源端表执行增加列的DDL操作;
- 支持易于操作的图形化配置与监控管理界面。
60.2解决方案
本项目采用GBase RTSync+GBase 8a MPP组合方案,通过RTSync对资产业务系统中Oracle、DB2、MySQL业务数据库的数据增量准实时同步到GBase 8a MPP中。其中Oracle数据的全量数据采用RTSync的在线全量转增量功能实现系统的在线割接;DB2配套IBM的CDC for datastage套件,把数据库的CDC变化量输出到文件中再由RTSync通过scp/sftp协议获取cdc变化量,把源端变化量还原为GBase 8a MPP能够高速消费的事务操作;MySQL
的bin-log日志解析功能,将数据增量日志进行信息拆分,获取到的增量信息由kafka生产组件生产,再由GBase 8a consumer进行消费,实现MySQL到GBase 8aMPP的信息增量同步。
RTSync将Oracle、DB2、MySQL业务数据库的数据增量准实时同步到GBase 8a MPP后再由GBase 8a MPP将数据高效处理输出至ACS云平台。
图1- 1华南区某股份制银行RTSync方案概览图
在华南区某股份制银行数据资产项目中RTSync实现了如下几项技术要点:
- 多个异构源数据库同步到一个目标数据库;
- 实现业务隔离,Oracle源同步数据失败不影响DB2源数据同步,反向也没有影响;
- Oracle全量转增量0停机,支持在线增加、删除同步表;
- 表同步适配Oracle源端表执行增加列的DDL操作;
- 图形化配置与监控管理界面,易于操作。
60.3应用效果
- 实施情况
在华南区某股份制数据资产项目共部署4套GBase 8a MPP集群(共9节点 )负责实现数据跑批与生产。7套RTSync负责实现生产数据同步业务。
- 效果及价值
提高实时性:等待时间由原先的12-24小时,提升到2-3小时甚至准实时;
事务库与分析库联动:实现Oracle等OLTP数据库于GBase 8a(OLAP)数据库联动向应用系统提供数据管理和数据分析功能的业务场景;
易运维:提供图形化配置与监控管理界面,易于操作;
优质服务保障:GBase的全方位一体化的产品服务,为用户提供了全方位的保障;
安全可控:RTSync是拥有完全知识产权的国产数据库同步产品,具备自主研发,安全可控的特性,全面提升银行同步数据安全和业务安全。
GBase UP
61.1项目概况
- 项目背景
2016年7月,国家发展改革委、交通运输部、中国铁路总公司联合发布了《中长期铁路网规划》,勾画了新时期”八纵八横”高速铁路网的宏大蓝图。铁科院为配合这一战略,着手开展新一代客票及电子支付平台等系统升级和扩容工程。
工程涉及到的系统有:新一代客票系统、铁路电子支付平台、短信及语音平台等7个。本期铁科院的项目属于新一代客票系统。铁路新一代客票系统的大数据应用创新主要聚焦12306互联网风控、票额预分应用和针对12306用户画像三个方面:
12306互联网风控:主要是用来解决互联网售票比较严峻的抢票等应用场景。新一代客票系统通过构建风控系统实现风险的预判,然后进行精确打击。通过大数据平台,实时收集网上购票用户的行为数据,以及第三方数据,然后开展实时分析和实时计算,完成对风险的决策和管理,实现实时卡控。
票额预分应用:它以历史客运数据为基础,以列车运行图为约束,对列车的分席别OD客流进行分席别的需求预测,在客流预测的基础上,以票额最大化利用率为优化目标,实施的售票组织策略。基于大数据平台的分析,优先分配重点客流,努力保证稳定客流,科学兼顾其它客流,对销售时机和数量进行预测,通过精细化管理提升发送量和收入。
12306用户画像:铁路旅客用户画像系统是通过对铁路用户的行为数据、交易数据等进行采集、加工和分析,形成用户精准画像数据,为旅客提供精准服务推荐和个性化的客运服务,对内提升铁路客户服务能力和行业核心竞争力,对外支撑精准广告投放以及开展数据增值服务。
- 业务需求
随着客运业务的运输量增大,和数据分析种类的增多,现有系统已经愈加难以支撑当前业务的需求和数据多样化趋势。基于Sybase IQ建立的分析类系统遇到性能瓶颈,无法及时完成数据加载处理,无法有效支撑更多的分析和访问,铁科院打算引进相关平台级产品进行能力升级,寻求技术成熟、能力充分的数据平台产品,以满足现在和未来业务的性能要求。在此期间,铁科院基于Tez、Hive等SQL on Hadoop类技术应用于历史客票的分析应用,但基于Hadoop的批处理特征,主要还是局限对历史数据的批量分析场景,对于复杂且实时性要求高的分析类应用,仍然依赖Sybase IQ,铁科院此次改造,一方面要解决Sybase IQ在线分析平台的处理瓶颈问题,一方面也是解决Hadoop上客票历史库与在线分析平台的统一数据管理和统一分析问题。
- 建设要求
本期项目为扩容,在原有GBase 8a MPP的22节点集群中再增加6个节点,建设完成的28个节点进行动态数据重分布。
61.2解决方案
作为Sybase IQ的替代,通过在大数据平台中引进GBase 8a MPP数据库,增强了客户数据的分析计算能力,消除了传统Shared Disk型数据库的处理瓶颈,实现了包括多维分析在内的在线查询能力。
利用GBase UP将基于Hadoop建设的客户历史库和GBase 8a MPP在线库进行整合。用户应用可将在线库数据和历史库数据作为一个统一视图,进行查询和分析计算,使应用不用意识所查询和处理的数据的具体位置,实现应用对数据层透明化访问,并且通过标准SQL统一数据访问,降低了开发难度,防止了1个应用中SQL和HQL混在的局面。并且GBase UP可以基于标准接口对Cognos这样的第三方BI工具实现直接的数据开放,从而平滑继承之前BI应用。
基于GBase UP的跨引擎的客票数据的生命周期管理,可自动根据数据的生命周期在引擎间自动搬运数据,而对于上层应用又封装为统一视图,这种生命周期管理可综合数据价值和存储成本,实现数据的“适才适所”的分布。
基于GBase UP的大数据平台,可以将各类客运数据统合在一起,形成客运数据湖,各类客运分析应用可以基于GBase UP提供的标准化接口实现DaaS(Data as Service)式服务,从而有效共享全路局数据。
图3- 1铁科院客票分析系统架构图
61.3应用效果
- 实施情况
本项目原系统GBase 8a MPP 22节点基础上进行二次扩容,在扩容到28节点,目前总数据量约240T,日增数据量100G,查询并发一般30-200。
- 效果及价值
海量数据存储和处理:基于GBase UP下的大数据平台(MPP + Hadoop)有效支撑总公司及各地方路局几十TB的数据量,并具有很好的可扩展性,可动态应对今后不断增长的数据分析需要,彻底解决之前Sybase IQ平台上数据处理能力不足的问题。
海量数据的高效分析查询:通过GBase 8a MPP数据库的分布式架构、列存、压缩存储和大规模数据并行处理能力,有效支撑了并行条件下,海量数据分析查询,即席查询能力,实现十亿级数据的秒级在线分析,并且具有线性的系统扩展能力。
数据的统一整合管理:基于GBase UP大数据平台,有效整合了MPP 和 Hadoop两大种类集群能力,将在线数据和历史数据统合成一个统一视图,并以标准SQL封装的方式,对上层应用开放数据分析和数据挖掘能力,简化了大数据应用开发,并通过数据生命周期管理等特性,降低了数据运维难度,提升了系统整体的性价比。
62.1项目概况
- 项目背景
按照国家应急管理部和原安监总局对应急管理、安全生产信息化建设的总体要求,按照紧贴需求、急用先建的原则,积极推进应急管理“一张图”建设,依托省政府办公厅信息中心的网络及云服务资源,按照全国安全生产信息化“一盘棋、一张网、一张图、一张表”的总体目标,结合实际情况,以省安监局实际需求为导向、以应用为核心、以数据为支撑,紧密围绕省安全生产监管监察和应急管理业务,深化信息化与安全生产业务融合,建设辽宁省安全生产信息平台。
- 业务需求
建设两大业务+一个中心+一个平台,两大业务指应急救援指挥业务,安全监管业务,一个中心指信息资源管理中心,一个平台指应用支撑平台。
62.2解决方案
辽宁安监安全生产信息平台建设,通过信息资源管理中心平台进行数据整合,ETL入库,结构化数据进入GBase 8a MPP Cluster,非结构化数据进入GBase HD。GBase UP构建统一管理平台,GBase 8a MPP Cluster 数据库构建融合数据的统一存储。在库内实现各类数据的初级汇总,并按照一定的规则将分散的各类数据重新规整和计算,如数据立方体的构建,面向主题的数据集市等。
本次项目建设涉及9台虚拟机,数据开发平台(3台)、数据仓库GBase8a MPP(2台)、前置库与中间件Oracle/ETL(1台)、GBase HD(3台)。
图4- 1辽宁安监安全生产信息平台架构图
图3- 2辽宁安监安全生产信息云平台架构图
62.3应用效果
- 实施情况
平台部署1套GBase8a MPP集群和1套GBase HD,其中8a集群部署规模,2个节点(2个管理节点,2个数据节点),GBaseHD部署3个节点。该19年项目启动,截止目前,项目已稳定运行2年,15+个源应用系统,300并发。
- 效果及价值
标杆项目:作为国内安监唯一两个大数据试点项目之一,GBsae参与技术框架搭建部署,协同第三方共同完成安监大数据平台上线,提供给国家总局,形成安检大数据指标体系。
数据融合、统一管理:基于GBase UP大数据平台,有效整合了MPP 和 Hadoop两大种类集群能力,融合管理结构化数据和非结构化数据,并将在线数据和历史数据统合成一个统一视图,提供标准接口及标准查数据查询语言,对上层应用开放数据分析和数据挖掘能力,简化大数据应用开发,并通过数据生命周期管理等特性,降低了数据运维难度,提升了系统整体的性价比。
63.1项目概况
- 项目背景
通信管理局是省级行政区域内通信行业的主管部门,对省内电信业进行集中统一的监督管理。为了实现对基础电信网络安全分析和行业监管,西藏通管局大数据分析平台总体定位是提供智能威胁信息的整合管理和分析功能,通过海量异构数据的集中采集和数据集中进行威胁分析,发现威胁并将相关潜在威胁信息予以挖掘呈现。
- 业务需求
大数据平台有效支撑本工程中各类业务信息的处理和运行、提供面向在线、离线数据存储和处理的综合能力、并满足易于管理和扩展的需要。平台系统需要支持各类结构化、半结构化与非结构化数据的存储,通过可扩展性的分布式平台技术有效支撑对各类数据的加工、检索、统计、分析和数据深度挖掘的需要,并对资源与任务实现最优的调配管理,最终为上层各业务系统提供基于标准接口方式的数据的存储、检索、统计和分析等服务能力。
63.2解决方案
本项目采用各类分布式数据存储和分布式分析处理方案,大平台数据采用Hadoop分布式体系架构结合GBase商用化分布式数据库GBase 8a MPP Cluster以及统一融合平台产品GBase UP,进行有效技术融合,全面性地综合解决本工程项目对各类结构化、半结构化与非结构化数据的存储管理和分析、挖掘的处理需求。
本项目采用GBase UP大数据融合平台,替换原有单一hadoop架构,为用户构建标准统一的数据采集、数据访问的DaaS平台。
平台包括数据采集层、数据存储层、数据计算层、分析服务层和大数据统一监控管理。数据采集层用于支持数据采集、过滤、缓存、中转分发调度;数据存储层用于支持海量异构数据的统一可靠的存储管理,对外提供标准化统一的结构化、半结构化和非结构化数据的访问接口;数据计算层是基于支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计算处理库;分析服务层为上层业务系统提供各种不同协议和标准的访问接口,并实现大数据平台内跨引擎间的任务调度;大数据统一监控管理用于完成对数据分析平台的运维、监控等功能,并同时提供命令行和图形两种管理界面。
图5- 1西藏通管局大数据平台总体架构
63.3应用效果
- 实施情况
该大数据平台经过三期建设,目前部署规模145节点GBaseHD,5节点GBase 8a(5个管理节点+5个数据节点),总节点数达150个,总数据量达60T,库内表数量14000张,日增数据量400G(GBase 8a)。
- 效果及价值
基于GBase UP融合架构构建DaaS平台:构建的大数据平台兼具OLTP的稳定高效的事务数据库、OLAP大规模分布式并行MPP数据库集群、NoSQL等多种大规模结构化、半结构化与非结构化数据处理技术,构建了对外统一,对内可扩展的大数据平台,支撑结构化数据、非结构化、半结构化数据的采集、存储与计算应用,能够适应OLAP、OLTP和NOSQL三种计算模型的业务场景;
解决方案具有行业通用性、复制性:本项目平台解决方案已经开始在通管局行业产生复制效应,促进GBase与集成商在WA/XA项目领域的全面合作。
原创文章,作者:kirin,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/317875.html