数据分析
-
【spark】HashShuffleManager解析详解大数据
HashShuffleManager HashShuffleManager在spark早期版本中为默认shuffle管理器(spark1.2以前)。单此版本存在明显的弊端,此shu…
-
【spark】Shuffle过程解析详解大数据
Shuffle过程解析 ShuffleMapTask ShuffleMapTask时shuffle过程的入口,runTask方法实现了shuffle的主要逻辑,runTask依赖S…
-
goldengate_mysql_kafka同步详解大数据
goldengate 实现mysql到kafka同步 Oracle GoldenGate 提供异构环境间事务数据的实时、低影响的捕获、路由、转换和交付 goldengate架构 g…
-
java操作HBase详解大数据
本篇文章讲述用HBase Shell命令 和 HBase Java API 对HBase 服务器 进行操作。在此之前需要对HBase的总体上有个大概的了解。比如说HBase服务器内…
-
HBase笔记详解大数据
HBase是面向列存储的列式数据库 列式数据库:对数据库中的数据存储时,是按照列来存储的。 附:对于普通的行式关系型数据库,对于查询语句SELECT ID, NAME …
-
Caused by: org.apache.zookeeper.KeeperException$AuthFailedException: KeeperErrorCode = AuthFailed fo详解大数据
在配置hbase的kerberos认证时,启动zookeeper之后,启动hbase出现如下错误,导致HMaster立马down掉 但是接着在zkEnv.sh中配置了如下内容之后,…
-
Hbase安装kerberos及远程登录配置详解大数据
1. 安装ZK, 单机多实例配置及启动 · 创建data目录, 创…
-
大数据处理分析的工具介绍详解大数据
Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素…
-
大数据之简介详解大数据
要理解大数据这一概念,首先要从”大”入手,”大”是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V…
-
org.apache.spark.SparkException: A master URL must be set in your configuration详解大数据
14/05/30 16:04:23 ERROR UserGroupInformation: PriviledgedActionException as:jnleec (auth:S…