Hadoop分布式处理框架

【简介】Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
1、解释下什么是Apache基金会?
答:Apache软件基金会(也就是Apache Software Foundation,简称为ASF),是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证(Apache License)。
【作用】
Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高吞吐量来访问应用程序数据,适合超大数据集的应用程序。
Hadoop的框架嘴和新的设计师:HDFS(海量数据存储)和MapReduce(为海量数据存储提供计算)。
Hadoop分布式处理框架
Hadoop分布式处理框架
【核心】
①Hadoop最底部是HDFS,它存储Hadoop集群中所有阶段上的文件。
②HDFS的上一层是MapReduce,由job 和task组成。
③通过HDFS和MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase。
2、解释下HDFS?
答:对于外部客户机而言,HDFS像传统的分级文件系统,可以创建、删除、移动或重命名文件等。Hadoop分布式处理框架
HDFS的架构基于一组特定的节点构建的,这些节点包括 :
NameNode(仅一个),它在 HDFS 内部提供元数据服务,是一个通常在 HDFS 实例中的单独机器上运行的软件,负责管理文件系统名称空间和控制外部客户机的访问。它决定是否将恩建映射到同一架构的不同节点上。
DataNode,它为 HDFS 提供存储块。存储在其中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。内部所有的通信都基于标准TCP/IP协议。DataNode也是一个通常在HDFS实例中单独机器上运行的软件。Hadoop集群包含一个NameNode和大量的DataNode。DataNode以机架的形式组织,机架通过一个交换机将所有的系统连接起来。
Hadoop分布式处理框架
3、解释一下,利用HDFS进行文件操作?
答:
①HDFS并不是一个万能的文件系统,它主要目的是以流的形式访问写入的大型文件。
②如果客户机将文件写入到HDFS上,首先需要将文件缓存到本地的临时存储位置。
③如果缓存的数据大于所需的HDFS块大小,创建文件的请求将发送给NameNode。NameNode将以DataNode标识和目标块响应客户机。
④同时也通知将要保存文件块副本的DataNode。当客户机开始临时文件发送给第一个DataNode时,将立即通过管道方式将块内容转发给副本DataNode。
⑤客户机负责创建保存相同HDFS名称空间的校验和文件。在最后的文件块发送之后,NameNode将文件创建提交到它的持久化元数据存储。
4、Hadoop在实际中的而应用?
答:Hadoop技术广泛应用于互联网,如雅虎使用4000个节点的Hadoop集群来支持广告系统和web搜索;
Facebook使用1000个节点的Hadoop集群来存储日式,支持数据分析和机器学习;
百度用Hadoop处理每周200Tb的数据,从而进行搜索日志分析和网页数据挖掘;
淘宝的Hadoop系统用于存储并处理电子商务交易相关的数据。
5、MapReduce与Hadoop比较?
答:
Hadoop是一种分布式数据和计算的框架。它很擅长存储大量的半结构化的数据集。数据可以随机存放,所以一个磁盘的失败并不会带来数据丢失。Hadoop也非常擅长分布式计算——快速地跨多台机器处理大型数据集合 。
MapReduce是处理大量半结构化数据集合的编程模型。编程模型是一种处理并结构化特定问题的方式。
6、HDFS基本原理是什么?
答:
①HDFS存储数据时,先将数据切成块,并为块分配一个有序编号;
②进行数据备份;
③将复制的备份放在不同的DataNode中;
④当DataNode宕机时,NameNode奖DataNode上存放的副本复制;
⑤从而使NameNode保持对DataNode的管理(是心动【节点状态】啊,糟糕眼神【节点存储的数据】躲不掉,对你莫名的心跳);

原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/190638.html

(0)
上一篇 2021年11月14日
下一篇 2021年11月14日

相关推荐

发表回复

登录后才能评论