Hadoop3.x有哪些新特性

本篇内容介绍了“Hadoop3.x有哪些新特性”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

JDK

　　在Hadoop 3中，所有的Hadoop JAR包编译的环境都是基于Java8来完成的，所有如果仍然使用的是Java 7或者更低的版本，你可能需要升级到Java 8才能正常的运行Hadoop3。如下图所示：

Hadoop3.x有哪些新特性

EC技术

　　首先，我们先来了解一下什么是Erasure Encoding。如下图所示：

Hadoop3.x有哪些新特性

　　一般来说，在存储系统中，EC技术主要用于廉价磁盘冗余阵列，即RAID。如上图，RAID通过Stripping实现EC技术，其中逻辑顺序数据（比如：文件）被划分成更小的单元（比如：位、字节或者是块），并将连续单元存储在不同的磁盘上。

　　然后，对原始数据单元的每个Stripe，计算并存储一定数量的奇偶校验单位。这个过程称之为编码，通过基于有效数据单元和奇偶校验单元的解码计算，可以恢复任意Stripe单元的错误。当我们想到了擦除编码的时候，我们可以先来了解一下在Hadoop2中复制的早期场景。如下图所示：

Hadoop3.x有哪些新特性

　　HDFS默认情况下，它的备份系数是3，一个原始数据块和其他2个副本。其中2个副本所需要的存储开销各站100%，这样使得200%的存储开销，会消耗其他资源，比如网络带宽。然而，在正常操作中很少访问具有低IO活动的冷数据集的副本，但是仍然消耗与原始数据集相同的资源量。

　　对于EC技术，即擦除编码存储数据和提供容错空间较小的开销相比，HDFS复制，EC技术可以代替复制，这将提供相同的容错机制，同时还减少了存储开销。如下图所示：

Hadoop3.x有哪些新特性

　　EC和HDFS的整合可以保持与提供存储效率相同的容错。例如，一个副本系数为3，要复制文件的6个块，需要消耗6*3=18个块的磁盘空间。但是，使用EC技术（6个数据块，3个奇偶校验块）来部署，它只需要消耗磁盘空间的9个块（6个数据块+3个奇偶校验块）。这些与原先的存储空间相比较，节省了50%的存储开销。

　　由于擦除编码需要在执行远程读取时，对数据重建带来额外的开销，因此他通常用于存储不太频繁访问的数据。在部署EC之前，用户应该考虑EC的所有开销，比如存储、网络、CPU等。

YARN的时间线V.2服务

　　Hadoop引入YARN Timeline Service v.2是为了解决两个主要问题：

提高时间线服务的可伸缩性和可靠性；
通过引入流和聚合来增强可用性

下面首先，我们来剖析一下它伸缩性。

1 伸缩性

　　YARN V1仅限于读写单个实例，不能很好的扩展到小集群之外。YARN V2使用了更具有伸缩性的分布式体系架构和可扩展的后端存储，它将数据的写入与数据的读取进行了分离。并使用分布式收集器，本质上是每个YARN应用的收集器。读则是独立的实例，专门通过REST API服务来查询

2 可用性

　　对于可用性的改进，在很多情况下，用户对流或者YARN应用的逻辑组的信息比较感兴趣。启动一组或者一系列的YARN应用程序来完成逻辑应用是很常见的。如下图所示：

Hadoop3.x有哪些新特性

3 架构体系

　　YARN时间线服务V2采用了一组收集器写数据到后端进行存储。收集器被分配并与它们专用的应用程序主机进行协作，如下图所示，属于该应用程序的所有数据都被发送到应用程序时间轴的收集器中，但是资源管理器时间轴收集器除外。

　　 Hadoop3.x有哪些新特性

　　对于给定的应用程序，应用程序可以将数据写入同一时间轴收集器中。此外，为应用程序运行容器的其他节点的节点管理器，还会向运行应用程序主节点的时间轴收集器写入数据。资源管理器还维护自己的时间手机线收集器，它只发布YARN的通用生命周期事件，以保持其写入量合理。时间的读取器是单独的守护进程从收集器中分离出来的，它旨在服务于REST API查询操作。

“Hadoop3.x有哪些新特性”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站，小编将为大家输出更多高质量的实用文章！

原创文章，作者：254126420，如若转载，请注明出处：https://blog.ytso.com/230314.html

Hadoop3.x有哪些新特性

JDK

EC技术

YARN的时间线V.2服务

1 伸缩性

2 可用性

3 架构体系

相关推荐

发表回复