HBase周边知识详解大数据

HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式，这样方便读写你的大数据内容。

HBase是介于Map Entry(key & value)和DB Row之间的一种数据存储方式。就点有点类似于现在流行的Memcache，但不仅仅是简单的一个key对应一个 value，你很可能需要存储多个属性的数据结构，但没有传统数据库表中那么多的关联关系，这就是所谓的松散数据。

简单来说，你在HBase中的表创建的可以看做是一张很大的表，而这个表的属性可以根据需求去动态增加，在HBase中没有表与表之间关联查询。你只需要告诉你的数据存储到Hbase的那个column families 就可以了，不需要指定它的具体类型：char,varchar,int,tinyint,text等等。但是你需要注意HBase中不包含事务此类的功能。

Apache HBase 和Google Bigtable 有非常相似的地方，一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的，因此用户可以给行定义各种不同的列，对于这样的功能在大项目中非常实用，可以简化设计和升级的成本。

***********************************************************************************************************************

Apache 的 Hadoop的项目中包含了那些产品，如图所示：

Pig 是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算。

Chukwa 是基于Hadoop集群中监控系统，简单来说就是一个“看门狗” (WatchDog)

Hive 是DataWareHouse 和 Map Reduce交集，适用于ETL方面的工作。

HBase 是一个面向列的分布式数据库。

Map Reduce 是Google提出的一种算法，用于超大型数据集的并行运算。

HDFS 可以支持千万级的大型分布式文件系统。

Zookeeper 提供的功能包括：配置维护、名字服务、分布式同步、组服务等，用于分布式系统的可靠协调系统。

Avro 是一个数据序列化系统，设计用于支持大批量数据交换的应用。

*******************************************************************************************************************

列存储：

什么是列存储？列存储不同于传统的关系型数据库，其数据在表中是按行存储的，列方式所带来的重要好处之一就是，由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别：

原创文章，作者：Maggie-Hunter，如若转载，请注明出处：https://blog.ytso.com/9533.html

HBase周边知识详解大数据

相关推荐

发表回复