百度数据仓库 Palo 0.14.13 版本发布

百度数据仓库 Palo 0.14.13 版本发布

Palo 0.14.13 版本发布啦!

百度数据仓库 Palo 是基于 Apache Doris(Incubating) 的 MPP 分析型数据库。

百度智能云 Doris 团队在维护 Apache Doris 社区的同时,也会定期发布基于 Apache Doris 官方 Release 的百度发行版本 Palo。

快速迭代版本不仅包含了 Apache Doris 所有的新增功能、功能改进和 Bug 修复,同时也包含 Palo 的一些独占功能。

注意:

这并不是 Apache 官方 Release 版本,但为了便于用户理解,我们沿用了社区版本的版本号格式,并且完全和社区版本兼容,以方便用户平滑升级。

Apache 官方 Release 版本请前往 Apache Doris 官方网站获取:

https://doris.incubator.apache.org

致谢

本次3位迭代版本包含部分社区小伙伴修复的问题和功能改进。除了百度智能云 Doris 团队外,这里我们也一并感谢社区小伙伴的贡献( Github ID ):

weizuo93, wudi, xinghuayu007, wangbo, jiafeng.zhang, harveyyue, Xiang Wei, Stalary, Qi, Lijia Liu, Kuncle, Hao Tan, GeoffreyStark

Change Log

本次更新以功能迭代和Bug修复为主,以下内容基于 Palo 0.14.12.4 版本迭代。

该版本可从 Palo 0.13.15 版本或 Palo/Doris 0.14.x 版本平滑升级。

注:[*] 星标功能为 Palo 独占功能。

特别声明

升级注意事项 

1. 升级步骤

0.14.12.x 版本包含了一个不兼容的 Thrift RPC 定义。如果用户是从 0.14.7(含)之前的版本升级到 0.14.12(含)之后的版本。需按照如下方式进行升级:

        1. 执行 set global enable_bucket_shuffle_join =false; 全局关闭 Bucket Shuffle 功能。

        2. 升级所有 BE 节点。

        3. 升级所有 FE 节点。

        4. 执行 set global enable_bucket_shuffle_join =true; 全局开启 Bucket Shuffle 功能。

即在升级过程中,禁止 Bucket Shuffle 功能,以避免升级过程中,BE 节点频繁宕机。

2. GCC 升级

从0.14.12版本开始,BE 端的 C++代码的编译器版本要求从 gcc7 升级为 gcc10。如需源码编译,需使用 Doris 编译镜像 v1.3 版本。

如果用户在之前的版本中使用了 UDF(用户自定义函数),这些将 UDF 不能在新版本中正常运行,请勿升级。我们将在后续迭代版本中给出解决方案。

功能

Doris Manager [*] 

增加 Doris Manager 相关接口,可以通过 Doris Manager 组件查看和管理部分集群信息。

> Doris Manager 将于近期在 Apache Doris 代码库开源,欢迎关注:

> https://github.com/apache/incubator-doris/tree/doris-manager

Routine load 相关

1. 获取例行导入作业的创建命令

支持通过 show create routine load 语句获取指定例行导入作业的创建语句。该功能方便用户在重新创建例行导入作业时,获取包含offset信息在内的完整作业创建语句。

2. 支持一次性暂停或重启所有例行导入作业

在某些情况下,用户可能需要批量暂停(Pause)或重启(Resume)所有例行导入作业。此时可以通过 pause(resume) all routine load 语句来一次性完成这个操作。

3. 支持修改 Kafka Broker List 和 Topic

可以通过 alter routine load 语句修改更多的作业属性,方便应对 Broker 信息变更等场景。

其他

1. 查看表的数据倾斜情况

支持通过 admin show data skew 命令查看表的各个数据分片大小,也确定数据是否产生倾斜。

2. 修改表和列的注释

支持通过 alter table 语句修改表或列的注释信息(Comment)。

3. 查看表的数据更新时间

支持通过 show table status 命令查看表的最近一次数据更新时间。

功能优化

性能优化

1. 优化 Bloom Filter 的过滤性能,进一步提升索引的过滤效果和 Runtime Filter 的过滤性能。

2. 通过 SIMD 指令优化存储层的数据读取效率。

功能优化

1. 解决通过 apache http client 调用 Strem Load 时,可能出现的 Broken Pipe 等错误。

2. 支持在 show proc “/statistic” 中查看已损坏分片的情况,方便定位问题。

3. 优化 B E端 Compaction 的逻辑,避免在创建物化视图或表结构变更操作过程中,数据版本堆积的问题。

4. Flink-Doris-Connector 支持设置写入端 Stream Load 的提交频率和其他导入参数。

重要Bug修复

元数据相关问题

1. 修复部分情况下,在回放元数据操作日志时可能出现空指针的问题。

查询相关问题

1. 修复部分情况下,Bucket Shuffle 和 Left Semi Join(Exist) 查询结果不正确的问题。

2. 修复 Runtime Filter 处理 null 值不正确的问题。

其他

1. 修复在某些大内存机器上,BE 内存可能一直上涨,不受 mem_limit 参数限制的问题。

2. 修复在动态分区功能中,创建历史分区的若干已知问题。

3. 修复 Spark Load 中对于部分分桶列值计算错误的问题。

更多内容查看 http://palo.baidu.com/home

原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/140205.html

(0)
上一篇 2021年9月5日
下一篇 2021年9月5日

相关推荐

发表回复

登录后才能评论