数据采集

  • Flink 剖析详解大数据

    1.概述   在如今数据爆炸的时代,企业的数据量与日俱增,大数据产品层出不穷。今天给大家分享一款产品—— Apache Flink,目前,已是 Apache 顶级项目之一。那么,接…

    大数据 2021年7月19日
  • Hadoop 生态系统详解大数据

    1.概述   最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的…

    大数据 2021年7月19日
  • Flink 案例整合详解大数据

    1.概述   Flink 1.1.0 版本已经在官方发布了,官方博客于 2016-08-08 更新了 Flink 1.1.0 的变动。在这 Flink 版本的发布,添加了 SQL …

    大数据 2021年7月19日
  • Kafka 消息监控 – Kafka Eagle详解大数据

    1.概述   在开发工作当中,消费 Kafka 集群中的消息时,数据的变动是我们所关心的,当业务并不复杂的前提下,我们可以使用 Kafka 提供的命令工具,配合 Zookeeper…

    大数据 2021年7月19日
  • Hive SQL 监控系统 – Hive Falcon详解大数据

    1.概述   在开发工作当中,提交 Hadoop 任务,任务的运行详情,这是我们所关心的,当业务并不复杂的时候,我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务…

    大数据 2021年7月19日
  • Hive Streaming 追加 ORC 文件详解大数据

    1.概述   在存储业务数据的时候,随着业务的增长,Hive 表存储在 HDFS 的上的数据会随时间的增加而增加,而以 Text 文本格式存储在 HDFS 上,所消耗的容量资源巨大…

    大数据 2021年7月19日
  • Kafka Offset Storage详解大数据

    1.概述   目前,Kafka 官网最新版[0.10.1.1],已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的To…

    大数据 2021年7月19日
  • Apache Arrow 内存数据详解大数据

    1.概述   Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。 2.内容   现在…

    大数据 2021年7月19日
  • Kafka Eagle 源码解读详解大数据

    1.概述   在《Kafka 消息监控 – Kafka Eagle》一文中,简单的介绍了 Kafka Eagle这款监控工具的作用,截图预览,以及使用详情。今天笔者通过…

    大数据 2021年7月19日
  • Apache Beam 剖析详解大数据

    1.概述   在大数据的浪潮之下,技术的更新迭代十分频繁。受技术开源的影响,大数据开发者提供了十分丰富的工具。但也因为如此,增加了开发者选择合适工具的难度。在大数据处理一些问题的时…

    大数据 2021年7月19日