Hadoop分布式处理框架

【简介】Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
1、解释下什么是Apache基金会？
答：Apache软件基金会（也就是Apache Software Foundation，简称为ASF），是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中，所发行的软件产品都遵循Apache许可证（Apache License）。
【作用】
Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序数据，适合超大数据集的应用程序。
Hadoop的框架嘴和新的设计师：HDFS（海量数据存储）和MapReduce（为海量数据存储提供计算）。
Hadoop分布式处理框架

【核心】
①Hadoop最底部是HDFS，它存储Hadoop集群中所有阶段上的文件。
②HDFS的上一层是MapReduce，由job 和task组成。
③通过HDFS和MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase。
2、解释下HDFS？
答：对于外部客户机而言，HDFS像传统的分级文件系统，可以创建、删除、移动或重命名文件等。 Hadoop分布式处理框架
HDFS的架构基于一组特定的节点构建的，这些节点包括：
NameNode（仅一个），它在 HDFS 内部提供元数据服务,是一个通常在 HDFS 实例中的单独机器上运行的软件,负责管理文件系统名称空间和控制外部客户机的访问。它决定是否将恩建映射到同一架构的不同节点上。
DataNode，它为 HDFS 提供存储块。存储在其中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。内部所有的通信都基于标准TCP/IP协议。DataNode也是一个通常在HDFS实例中单独机器上运行的软件。Hadoop集群包含一个NameNode和大量的DataNode。DataNode以机架的形式组织，机架通过一个交换机将所有的系统连接起来。
Hadoop分布式处理框架
3、解释一下，利用HDFS进行文件操作？
答：
①HDFS并不是一个万能的文件系统，它主要目的是以流的形式访问写入的大型文件。
②如果客户机将文件写入到HDFS上，首先需要将文件缓存到本地的临时存储位置。
③如果缓存的数据大于所需的HDFS块大小，创建文件的请求将发送给NameNode。NameNode将以DataNode标识和目标块响应客户机。
④同时也通知将要保存文件块副本的DataNode。当客户机开始临时文件发送给第一个DataNode时，将立即通过管道方式将块内容转发给副本DataNode。
⑤客户机负责创建保存相同HDFS名称空间的校验和文件。在最后的文件块发送之后，NameNode将文件创建提交到它的持久化元数据存储。
4、Hadoop在实际中的而应用？
答：Hadoop技术广泛应用于互联网，如雅虎使用4000个节点的Hadoop集群来支持广告系统和web搜索；
Facebook使用1000个节点的Hadoop集群来存储日式，支持数据分析和机器学习；
百度用Hadoop处理每周200Tb的数据，从而进行搜索日志分析和网页数据挖掘；
淘宝的Hadoop系统用于存储并处理电子商务交易相关的数据。
5、MapReduce与Hadoop比较？
答：
Hadoop是一种分布式数据和计算的框架。它很擅长存储大量的半结构化的数据集。数据可以随机存放，所以一个磁盘的失败并不会带来数据丢失。Hadoop也非常擅长分布式计算——快速地跨多台机器处理大型数据集合。
MapReduce是处理大量半结构化数据集合的编程模型。编程模型是一种处理并结构化特定问题的方式。
6、HDFS基本原理是什么？
答：
①HDFS存储数据时，先将数据切成块，并为块分配一个有序编号；
②进行数据备份；
③将复制的备份放在不同的DataNode中；
④当DataNode宕机时，NameNode奖DataNode上存放的副本复制；
⑤从而使NameNode保持对DataNode的管理（是心动【节点状态】啊，糟糕眼神【节点存储的数据】躲不掉，对你莫名的心跳）；

原创文章，作者：kepupublish，如若转载，请注明出处：https://blog.ytso.com/190638.html

Hadoop分布式处理框架

相关推荐

发表回复