数据分析 | 第25页

1.概述 HBase是一个实时的非关系型数据库，用来存储海量数据。但是，在实际使用场景中，在使用HBase API查询HBase中的数据时，有时会发现数据查询会很慢。本篇博客将从客…

大数据 2021年7月19日

0

1.概述在《HBase查询优化》一文中，介绍了基于HBase层面的读取优化。由于HBase的实际数据是以HFile的形式，存储在HDFS上。那么，HDFS层面也有它自己的优化点，…

大数据 2021年7月19日

0

1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批…

大数据 2021年7月19日

0

1.概述 HBase中表的基本单位是Region，日常在调用HBase API操作一个表时，交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region，今天笔者就来…

大数据 2021年7月19日

0

1.概述对于数据的转发，Kafka是一个不错的选择。Kafka能够装载数据到消息队列，然后等待其他业务场景去消费这些数据，Kafka的应用接口API非常的丰富，支持各种存储介质，…

大数据 2021年7月19日

0

1.概述在分布式实时数据流场景下，随着数据量的增长，对Kafka集群的性能和稳定性的要求也很高。本篇博客将从生产者和消费者两方面来做性能测试，针对具体的业务和数据量，来调优Kaf…

大数据 2021年7月19日

0

1.概述 Apache官方发布HBase2已经有一段时间了，HBase2中包含了许多个Features，从官方JIRA来看，大约有4500+个ISSUES（查看地址），从版本上来看…

大数据 2021年7月19日

0

1.概述在流数据应用场景中，往往会通过Flink消费Kafka中的数据，然后将这些数据进行结构化到HDFS上，再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用…

大数据 2021年7月19日

0

1.概述 Hadoop3已经发布很久了，迭代集成的一些新特性也是很有用的。截止本篇博客书写为止，Hadoop发布了3.2.0。接下来，笔者就为大家分享一下在使用Hadoop3中遇到…

大数据 2021年7月19日

0

1.前言 Apache Kafka发展至今，已经是一个很成熟的消息队列组件了，也是大数据生态圈中不可或缺的一员。Apache Kafka社区非常的活跃，通过社区成员不断的贡献代码和…

大数据 2021年7月19日

0