数据采集
-
使用Flume消费Kafka数据到HDFS详解大数据
1.概述 对于数据的转发,Kafka是一个不错的选择。Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,…
-
Kafka性能测试实例详解大数据
1.概述 在分布式实时数据流场景下,随着数据量的增长,对Kafka集群的性能和稳定性的要求也很高。本篇博客将从生产者和消费者两方面来做性能测试,针对具体的业务和数据量,来调优Kaf…
-
HBase2实战:HBase Flink和Kafka整合详解大数据
1.概述 Apache官方发布HBase2已经有一段时间了,HBase2中包含了许多个Features,从官方JIRA来看,大约有4500+个ISSUES(查看地址),从版本上来看…
-
Flink生成Parquet格式文件实战详解大数据
1.概述 在流数据应用场景中,往往会通过Flink消费Kafka中的数据,然后将这些数据进行结构化到HDFS上,再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用…
-
Hadoop3.2.0使用详解大数据
1.概述 Hadoop3已经发布很久了,迭代集成的一些新特性也是很有用的。截止本篇博客书写为止,Hadoop发布了3.2.0。接下来,笔者就为大家分享一下在使用Hadoop3中遇到…
-
Kafka应用实践与生态集成详解大数据
1.前言 Apache Kafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。Apache Kafka社区非常的活跃,通过社区成员不断的贡献代码和…
-
基于Kafka的实时计算引擎如何选择Flink or Spark详解大数据
1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟。以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象。那么,今天就来聊一聊基于K…
-
万亿数据下Hadoop的核心竞争力详解大数据
1.前言 在大数据时代,Hadoop有着得天独厚的优势。然而,每个企业的技术储备和需求特点不同,他们希望从海量的客户数据中挖掘真正的商业价值,像Google、Facebook、Tw…
-
Kafka Eagle V1.3.4更新预览详解大数据
1.概述 Kafka Eagle是一款开源的Kafka集群监控系统,源代码托管在Github。目前Kafka Eagle已更新到V1.3.4版本,域名已经统一更新为IT虾米网,之前…
-
HBase数据迁移到Kafka实战详解大数据
1.概述 在实际的应用场景中,数据存储在HBase集群中,但是由于一些特殊的原因,需要将数据从HBase迁移到Kafka。正常情况下,一般都是源数据到Kafka,再有消费者处理数据…