随着互联网的发展,大数据已经成为了新一代的“网红”,各行各业几乎都和大数据产生着关系。Spark是大数据中重要的框架之一,下面为大家分享如何快速入门spark。
Apache Spark是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制。
通过以上教程可以让大家掌握Spark的环境搭建,任务调度流程,以及RDD代码的应用。
课程目录:
第1章 Spark知识讲解
01_为什么学习Spark
02_Spark和MapReduce的对比.mp4
03_Spark框架体系
04_Spark下载
05.Spark运行模式介绍
06.Spark集群安装
07.Spark程序执行流程
08.Spark相关名词解释
09_SparkShellLocal
10_SparkShellCluster
11_Spark2.2和Spark1.6Shell对比
第2章 Maven和IDEA
12_Maven和IDEA下载
13_Maven安装
14_IDEA安装
15_IDEA中配置Maven
16_Scala环境安装和IDEA中配置Scala插件
17_IDEA创建Spark工程
18_Spark开发WordCount程序
19_Spark程序打包
20_Spark集群运行打包程序
第3章 RDD知识讲解
21_RDD概念
22_RDD执行流程
23_RDD属性
24_RDD弹性
25_RDD的两种创建
26_RDD编程API
第4章 Transformation算法
27_Transformation算法
28_Action算法
29_Map
30_filter
31_flatMap
32_sample
33 union
34 intersection
35 distinct
36 join
37_leftOuterJoin
38_rightOuterJoin
39_cartesian
40_groupBy
41_mapPartition
42_mapPartitionWithIndex
43_sortby
44_sortbykey
45_repartition
46_coalesce
47_partitionBy
48_repartitionAndSortWithinPartitions
49_reduce
50_reduceByKey
51_aggregateByKey
52_combineByKey
第5章 Action算法
53_collect
54_count
55_top
56_take
57_takeOrdered
58_first
59_saveAsTextFile
60_foreach
61_其他算子之countByKey
62_其他算子之countByValue
63_其他算子之filterByRange
64_其他算子之flatMapValues
65_其他算子之foreachPartition
66_其他算子之keyBy
67_其他算子之keys和values
68_其他算子之collectAsMap
69_RDD函数传递
70_RDD的依赖关系
71_RDD任务划分
72_Lineage血统
73_RDD缓存(持久化)
原创文章,作者:3628473679,如若转载,请注明出处:https://blog.ytso.com/194266.html