数据采集
-
Spark-Sql源码解析之五 Spark Planner:optimized logical plan –> spark plan详解大数据
前面描述的主要是逻辑计划,即sql如何被解析成logicalplan,以及logicalplan如何被analyzer以及optimzer,接下来主要介绍逻辑计划如何被翻译成物理计…
-
Spark-Sql源码解析之六 PrepareForExecution: spark plan -> executed Plan详解大数据
在SparkPlan中插入Shuffle的操作,如果前后2个SparkPlan的outputPartitioning不一样的话,则中间需要插入Shuffle的动作,比分说聚合函数,…
-
Spark-Sql源码解析之七 Execute: executed Plan -> RDD[Row]详解大数据
SparkPlan如何执行呢,SparkPlan是如何转变为RDD[Row]的呢?首先看一段代码: SQLContext sqlContext = new SQLContext(j…
-
Spark-Sql源码解析之八 Codegen详解大数据
Codegen,动态字节码技术,那么什么是动态字节码技术呢?先看来一段代码,假设SparkPlan为Sort case class Sort( sortOrder: Seq[Sor…
-
Mongo+Spark详解大数据
本文转载自:http://www.mongoing.com/tj/mongodb_shanghai_spark 介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据…
-
Spark分区器HashPartitioner和RangePartitioner代码详解大数据
1.HashPartitioner分区怎么用源码解析? 2.RangePartitioner分区怎么用源码解析? 3.定位分区ID怎么用源码解析? &nb…
-
Spark算子执行流程详解之一大数据
1.take 获取前num条记录。 def take(num: Int): Array[T] = withScope { if (num == 0) { …
-
Spark算子执行流程详解之二大数据
4.count def count(): Long = sc.runJob(this, Utils.getIteratorSize_).sum 计算数据总量,每个分区各自计算自己的…
-
Spark算子执行流程详解之三大数据
10.aggregate 用与聚合RDD中的元素,先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型,再使用combOp将之前每个分区聚合后的U类型聚合成U类型,特别注意…
-
Spark算子执行流程详解之四大数据
17.map /** * Return a new RDD by applying a function to all elements of this RDD. &n…