数据分析
-
Hadoop故障处理在高可用(HA)配置下,8088端口无法访问,resourcemanager进程无法启动问题详解大数据
【故障背景】 8088网页打不开,因8088是yarn平台的端口,所以我从yarn开始排查,首先到各个机器上使用jps命令查看yarn的各个节点是否启动,发现虽然有nodemana…
-
Hadoop故障处理全分布下,DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空详解大数据
【故障背景】 DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空。 /etc/hosts 的ip和hostname配置正常,各个机…
-
Flume数据采集引擎Flume详解大数据
一、概述 flume是一个高效的、可靠的、可用的分布式海量日志数据收集、聚合、传输的工具。 Flume is a distributed, reliable, and availa…
-
Spark算子详解大数据
1. mapWith mapWith(i => i*10)((a,b) => b+2) (拿到分区号)(a是每次取到的RDD中的元素,b接收i*10的结果) 2. fl…
-
Spark源码分析之spark-submit详解大数据
在客户端执行脚本sbin/spark-submit的时候,通过cat命令查看源码可以看出,实际上在源码中将会执行bin/spark-class org.apache.spark.d…
-
Spark源码分析之SparkContext详解大数据
一、概述 SaprkContext非常重要,是Spark提交任务到集群的入口 SparkContext中没有main方法,在SparkContext主构造器中,主要做一下四件事情:…
-
Spark源码分析之RDD的生成及stage的切分详解大数据
一、概述 Spark源码整体的逻辑(spark1.3.1): 从saveAsTextFile()方法入手 –>saveAsTextFile() …
-
SparkSpark2.x版的新特性详解大数据
一、API 1. 出现新的上下文接口:SparkSession,统一了SQLContext和HiveContext,并且为SparkSession开发了…
-
SparkSpark性能优化之Whole-stage code generation详解大数据
一、技术背景 Spark1.x版本中执行SQL语句,使用的是一种最经典,最流行的查询求职策略,该策略主要基于 Volcano Iterator Mode…
-
SparkSpark核心之弹性分布式数据集RDD详解大数据
1. RDD概述 1.1 什么是RDD (1) RDD(Resilient Distributed Dataset)弹性分布式数据…