数据采集 | 第64页

一表的设计 1.1 Pre-Creating Regions 默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户…

大数据 2021年7月19日

0

第一章、linux 的介绍和安装 1.1 linux 操作系统介绍 linux 的创始人 Linus torvalds。 linux 与 GNU 和 minix…

大数据 2021年7月19日

0

一 Zookeeper概述 1.1 概述 Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务…

大数据 2021年7月19日

0

一启动服务 zookeeper hadoop hbase 二脚本 1 启动集群脚本start-cluster.sh #!/bin/bash echo “************…

大数据 2021年7月19日

0

一 Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop 于 201…

大数据 2021年7月19日

0

一 HBaes 介绍 1.1 HBase 的起源 HBase 的原型是 Google 的 BigTa…

大数据 2021年7月19日

0

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各…

大数据 2021年7月19日

0

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手…

大数据 2021年7月19日

0

Spark调优由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，…

大数据 2021年7月19日

0

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能…

大数据 2021年7月19日

0