2018年5月16日,集算器(仓库版)携带多项黑科技正式发布。
在发布之前的应用验证中,仓库版就已经用实力赢得了用户的好评。北京银行用户在评价仓库版时表示:在数据分析实践中,高并发访问、大数据量计算造成的系统响应时间过长的问题,始终没有得到很好的解决。集算器(仓库版)的出现,彻底解决了这个难题!用集算器将高频次热点数据前置,构建数据计算中间层,可以说是最佳解决方案,在很多场景下要优于价值百万的数据库产品!
实际的测试也证明,集算器(仓库版)确实表现优异!以性能指标为例,测试目标是高频热点数据,单日三千万行。集算器和GreenPlum执行同样的条件查询,集算器仅用2秒完成,GreenPlum执行了5秒。GP测试环境是5个节点集群,每个节点是2*6核CPU,96G内存的实体机;而集算器所在的服务器仅是1*2核CPU,16G内存的虚拟机。能够大幅超越GP,足见黑科技的威力!
究竟是什么样的黑科技能以如此优异的表现赢得用户的好评呢?下面,我们就一一道来:
黑科技之一:组表
组表又称组合表,是集算器(仓库版)数据存储的基本方式。组表支持数据的部分修改,支持更新恢复,可以安全方便的从全量数据源中同步热点数据。组表支持索引,而且数据本身就是有序存放的,常用的条件过滤计算不依赖索引也能保证高性能。索引在数据修改之后自动更新。
在上边提到的测试中,采用的是列存硬盘存储的方式。组表也可以采取行存和全内存存储数据,支持内存数据库方式运行。
黑科技之二:可并行列存
组表采用的列存机制和常规列存是不同的。常规列存(比如parquet格式),只能分块之后,再在块内列存,在做并行计算的时候是受限的。组表的可并行压缩列存机制,采用倍增分段技术,允许任意分段的并行计算,可以利用多CPU核的计算能力把硬盘的IO发挥到极致。
黑科技之三:集群组表
组表除了具备上述特性之外,还支持把数据分布在多台机器上形成集群组表。集群组表可以利用多机并行来横向扩展计算能力和存储容量。在用法上,集群组表和普通组表是基本相同的。也就是说,集群组表是透明集群,使用者无需关心多节点组表的细节,可以当成一个组表来用。
黑科技之四:主附表统一
有些数据表是同维(一对一)关系或者主子关系。比如:客户表、VIP客户表;用户基本信息、家庭信息、教育经历、工作经历;订单、订单明细。
主附表统一是指将同维表或者主子表放到一个组表中,只存放一份主键。还可以省去这些表的连接(JOIN)计算,减小存储空间,有效提高性能。
黑科技之五:序号键技术
外键关系的连接(JOIN)计算也比较常见,比如销售记录表通过“商品编号”和商品表关联。序号键技术就是把销售记录中的商品编号都改成整数,这个数就是该商品编号对应的商品在商品表中的次序号。
序号键技术使得外键连接(JOIN)计算可以直接使用序号定位,不需要计算和比较HASH值,减少计算时间,提高性能。同时,使用序号键技术这种外键式连接技术方案,很容易把多个连接(JOIN)并行执行。
黑科技之六:JDBC智能网关
集算器对外提供JDBC驱动和简单SQL接口,具备可编程网关机制。通过编写集算器内置的新一代编程语言SPL代码,可以自由的实现高频次热点数据的计算规则。
可以考虑的计算规则包括:分析前端传入的SQL过滤条件中的日期参数,如果命中集算器(仓库版)已经缓存的日期,则认为是热点数据,直接访问。没有命中,则将SQL转发给后台传统数据库执行。集算器还可以记录访问情况,用于分析热点数据的时间和空间分布。
具备诸多黑科技的集算器(仓库版)已经可以与传统数据库、内存数据库等昂贵的产品一较高下,但是其价格却又非常的实在和优惠。可以预见,这款产品必将为您的软件项目带来新的价值和机遇。现在,润乾官网提供全功能的试用版本,立即下载体验吧!
原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/195040.html