Hadoop 入门笔记—核心组件 HDFS

作者：幻好

来源：恒生LIGHT云社区

HDFS (Hadoop Distributed File System) 是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。

首先，通过名字就能很清楚的明白 HDFS 在 Hadoop 中是应该文件存储的组件。

HDFS 的设计之初，主要是考虑到在数据量的不断增长的环境下，由于受制单机资源有限，为了保证系统能够提供高可用、高可靠性以及高扩展等要求，于是通过分布式架构，以达到响应的需求。

HDFS 的主要架构分为三个部分：NameNode（nn）、DataNode(dn) 、Secondary NameNode(2nn)。

NameNode（nn）

可以理解系统的文件资源管理器，方便我们查询文件存储位置以及相关属性信息。

DataNode(dn)

可以理解为通过NameNode是存储一些文件基本属性信息方便我们查询，而DataNode则是存储文件数据的。

Secondary NameNode(2nn)

Secondary NameNode可以理解为NameNode的备份，如果NameNode都挂了，Secondary NameNode的备份还能继续提供服务

一个 HDFS 集群由一个 NameNode 和一些 DataNode 组成， NameNode 相当于控制中心，负责管理文件系统的名字空间、数据块与数据节点的映射以及数据节点的调度。 DataNode 则负责处理实际的客户端读写的请求，存储数据。

HDFS 的设计保证了系统的高可用、高扩展等要求，虽然也有弊端，但是我们应该根据切实的业务需求，选择最合适的技术方案。

HDFS 通过其良好的跨平台移植性，使得其他大数据计算框架都将其作为数据持久化存储的首选方案。

原创文章，作者：Maggie-Hunter，如若转载，请注明出处：https://blog.ytso.com/201539.html