GBASE分享：hadoop组件

HDFS1.0：分布式文件系统，HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的，一个HDFS Client和Secondary NameNode。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。

MapReduce：一种编程模式，是面向大数据并行处理的计算模型、框架和平台。Map处理的是原始数据，每条数据之间互相没有关系；Reduce阶段的数据是以key后面跟着若干个value来组织的。

hive：是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库的统计分析。hive不适合用于联机(online)事务处理，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。hive的特点包括：可伸缩（在Hadoop的集群上动态添加设备）、可扩展、容错、输入格式的松散耦合。

HBASE：是一个分布式的、面向列的开源数据库，适合于非结构化数据存储的数据库，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。

Zookeeper：是一个为分布式应用提供一致性服务的软件，目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

PIG：是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

flume：一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume的管道是基于事务，保证了数据在传送和接收时的一致性.

YARN：是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

原创文章，作者：kirin，如若转载，请注明出处：https://blog.ytso.com/tech/bigdata/317760.html

GBASE分享：hadoop组件

相关推荐

发表回复