数据分析
-
Spark算子执行流程详解之一大数据
1.take 获取前num条记录。 def take(num: Int): Array[T] = withScope { if (num == 0) { …
-
Spark算子执行流程详解之二大数据
4.count def count(): Long = sc.runJob(this, Utils.getIteratorSize_).sum 计算数据总量,每个分区各自计算自己的…
-
Spark算子执行流程详解之三大数据
10.aggregate 用与聚合RDD中的元素,先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型,再使用combOp将之前每个分区聚合后的U类型聚合成U类型,特别注意…
-
Spark算子执行流程详解之四大数据
17.map /** * Return a new RDD by applying a function to all elements of this RDD. &n…
-
Spark算子执行流程详解之五大数据
22.combineByKey def combineByKey[C](createCombiner: V => C, m…
-
Spark算子执行流程详解之六大数据
26.coalesce coalesce顾名思义为合并,就是把多个分区的RDD合并成少量分区的RDD,这样可以减少任务调度的时间,但是请记住:合并之后不能保证结果RDD中的每个分区…
-
Spark算子执行流程详解之七大数据
31.union 将2个rdd合并在一起。 def union(other: RDD[T]): RDD[T] = withScope { if (partitione…
-
Spark算子执行流程详解之八大数据
36.zip 将2个rdd相同位置的元素组成KV对 /** * Zips this RDD with another one, returning key-value …
-
HBase shell 命令。详解大数据
HBase shell 命令。 进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使…
-
Hive中order by,sort by,distribute by,cluster by的区别详解大数据
一:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗…