数据治理

  • Kafka Streams 剖析详解大数据

    1.概述   Kafka Streams 是一个用来处理流式数据的库,属于Java类库,它并不是一个流处理框架,和Storm,Spark Streaming这类流处理框架是明显不一…

    大数据 2021年7月19日
  • Zeppelin源码详解大数据

    1.概述   在大数据应用场景中,处理数据分析方面,由于开发者的水平不一样,使用的编程语言也不尽相同,可能会涉及到R、Python、Java、Scala等,数据计算模型也估计不一样…

    大数据 2021年7月19日
  • HBase流量限制和表负载均衡剖析详解大数据

    1.概述   在HBase-1.1.0之前,HBase集群中资源都是全量的。用户、表这些都是没有限制的,看似完美实则隐患较大。今天,笔者就给大家剖析一下HBase的流量限制和表的负…

    大数据 2021年7月19日
  • HBase存储剖析与数据迁移详解大数据

    1.概述   HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储。所以,对于结构化的SQL语言查询,HBase自身并没有接口支持。在大数据应用中,虽然也有…

    大数据 2021年7月19日
  • Kylin与CDH兼容性剖析详解大数据

    1. 概述   Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开…

    大数据 2021年7月19日
  • HBase MemStore和Compaction剖析详解大数据

    1.概述   客户端读写数据是先从Zookeeper中获取RegionServer的元数据信息,比如Region地址信息。在执行数据写操作时,HBase会先写MemStore,为什…

    大数据 2021年7月19日
  • Apache Ignite剖析详解大数据

    1.概述   Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容…

    大数据 2021年7月19日
  • Hadoop 3.x 新特性剖析系列1详解大数据

    1.概述   目前从Hadoop官网的Wiki来看,稳定版本已经发行到Hadoop2.9.0,最新版本为Hadoop3.1.0,查阅JIRA,社区已经着手迭代Hadoop3.2.0…

    大数据 2021年7月19日
  • Hadoop 3.x 新特性剖析系列2详解大数据

    1.概述 接着上一篇博客的内容,继续介绍Hadoop3的其他新特性。其内容包含:优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Containe…

    大数据 2021年7月19日
  • 实战Kafka ACL机制详解大数据

    1.概述   在Kafka0.9版本之前,Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址,例如zk1:2181:zk2:2181,z…

    大数据 2021年7月19日