Spark2.4.0有什么功能

2022年1月8日 04:30 • 大数据, 开源, 研发管理, 移动开发, 编程笔记

这篇文章给大家分享的是有关Spark2.4.0有什么功能的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

SparkCore 和 SQL

增加了Barrier ExecutionMode，可以更好的和深度学习的框架整合
同时引入了 30+ 内置函数和 higher-order函数可以处理更复杂的数据类型
改善了与k8s的整合

Spark2.4.0有什么功能

支持scala 2.12
内置支持了Avro格式数据源，这个感情好，后面浪尖给出测试案例，以后有pb的支持那就更好了。

性能和稳定性

这个优化比较多，值得关注

Connector优化

这个优化主要是Parquet，orc，csv及avro等的优化升级

Spark2.4.0有什么功能

MLlib

MLlib支持了图像格式的数据源

StructuredStreaming

使用foreachBatch（支持Python，Scala和Java）将每个微批的输出行暴露为DataFrame。
为Python API 增加了foreach 和 ForeachWriter
支持使用“kafka.isolation.level”读取使用事务的生产者生产到kafka topic的已提交消息。

感谢各位的阅读！关于“Spark2.4.0有什么功能”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/225706.html

赞 (0)

0

Immutable集合的示例分析

上一篇 2022年1月8日

Spark如何快速构建数仓项目

下一篇 2022年1月8日

发表回复

登录后才能评论