Spark-Core源码阅读详解大数据

吐血奉献,Spark-Core源码阅读,适合新手,详细请见链接:

http://download.csdn.net/detail/wl044090432/9421721

目录结构为:

一. Spark的部署方式Standalone、YARN、Mesos. 2

1.     Standalone.2

2.     Mesos.3

3.     YARN..3

二. Standalone部署下的Driver,Master和Work如何启动4

1.     Master的启动4

2.     Work的启动12

3.     Driver的启动19

4.     流程图24

三.  Spark Context的初始化24

1.     Application的注册24

2.     Excutor的启动34

3.     流程图40

四.     详解Rdd. 40

1.     Rdd的基本组成40

2.     Rdd的Transformation和action. 43

3.     Rdd的依赖44

五.     Job的提交44

1.     Dependency、Stage和Task的划分44

2.     job的具体执行过程45

3.     job的运行过程的日志打印62

3.1 DAG图    62

3.2 Driver端日志:62

六.     Application中Job的调度64

1.     Job调度的类结构65

2.     FAIR调度的资源池组成66

3.     FAIR调度原理解析69

3.1 TaskSetManager的提交69

3.2 TaskSetManager的调度71

七.     BlockManager(分布式缓存的实现)83

1.RDD的存储等级83

2.Driver和Excutor的交互85

2.1 Driver接受Excutor指令的过程:85

2.2 Excutor接受Driver指令的过程:86

2.3 Excutor和Excutor之间相互接受指令的过程:87

3.Block的生成过程(Rdd如何遍历其分区数据)87

4. 广播变量的原理89

4.1 广播变量如何存储89

4.2 广播变量如何读取90

八.     详解Shuffle. 92

1.当前后RDD的分区函数相等时95

2.当前后RDD的分区函数不相等时98

2.1 HashShuffleManager.101

2.1.1ShuffleWrite.101

2.1.2ShuffleRead.103

2.1.3 流程图104

2.1.3.1consolidateShuffleFiles=true.104

2.1.3.2consolidateShuffleFiles=false.106

2.2 SortShuffleManager.106

2.2.1ShuffleWrite.106

2.2.2ShuffleRead.111

2.2.2 流程图111

九.     详解RDD的CheckPoint机制112

1RDDCheckPoint数据的写入113

2RDDCheckPoint数据的读取115

十.     Spark-Streaming. 116

1KafkaSpark-Streaming结合的receiver方式,不开启WAL功能117

1.1 Driver端启动流程117

1.2 Receiver端启动流程125

1.3 Driver端和Receiver端的交互134

2. KafkaSpark-Streaming结合的receiver方式,开启WAL功能135

2.1 Receiver端流程137

2.2 Driver端流程149

2.3 Receiver和Dirver端的交互153

2.4 Spark-Streaming恢复流程154

3. KafkaSpark-Streaming结合的direct方式159

3.1 Receiver不存在161

3.2 Job如何提交161

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/9319.html

(0)
上一篇 2021年7月19日
下一篇 2021年7月19日

相关推荐

发表回复

登录后才能评论