数据采集

  • hive中的分区表详解大数据

    分区表其实就是按照表中数据的某一列的值进行划分文件(自我理解类似于sql查询中的group by),一个分区下包含多个子目录,用于分区的虚拟列有多少种枚举值就有多少个子目录。分区表…

    大数据 2021年7月19日
  • spark和hadoop的区别详解大数据

    spark的结构图如下: 一个Application和一个SparkContext相关联,每个Application中可以有一个或多个Job,可以并行或者串行运行 Job。Spar…

    大数据 2021年7月19日
  • HBase深入学习(1)详解大数据

    HBase架构组成 HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点、HRegionServer节点、Zoo…

    大数据 2021年7月19日
  • HBase深入学习(2)详解大数据

    HBase读的实现 通过前文的描述,我们知道在HBase写时,相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起,甚至删除一个Cell也只是写入…

    大数据 2021年7月19日
  • HBase数据库检索性能优化策略详解大数据

    HBase 数据表介绍 HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigTable”…

    大数据 2021年7月19日
  • HBase特征详解大数据

    Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程…

    大数据 2021年7月19日
  • HBase周边知识详解大数据

    HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式,这样方便读写你的大数据内容。 HBas…

    大数据 2021年7月19日
  • HBase优化技巧、存储详解大数据

    这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。 1 修改 linux 系统参数 Linux系统最大可打开文件数…

    大数据 2021年7月19日
  • Hbase安装详解大数据

    环境:CentOS6.5  Hadoop2.7.2  HBase1.2.1 1.安装好 hadoop 集群,并启动  [[email pro…

    大数据 2021年7月19日
  • Apache Ranger0.6版本源码编译详解大数据

    1 Ranger简介 Apache Ranger提供一个集中式安全管理框架,它可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制.通过操作Ranger控制台…

    大数据 2021年7月19日