6. RDD综合练习：更丰富的操作

2022年4月18日 04:53 • 编程笔记

集合运算练习

union()， intersection()，subtract(), cartesian()

内连接与外连接

6. RDD综合练习：更丰富的操作

join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin()

6. RDD综合练习：更丰富的操作

多个考勤文件，签到日期汇总，出勤次数统计

6. RDD综合练习：更丰富的操作

三、综合练习：学生课程分数

1、网盘下载sc.txt文件，通过RDD操作实现以下数据分析:

6. RDD综合练习：更丰富的操作

2、持久化 scm.cache()

6. RDD综合练习：更丰富的操作

3、总共有多少学生？map(), distinct(), count()

6. RDD综合练习：更丰富的操作

4、开设了多少门课程？

6. RDD综合练习：更丰富的操作

5、生成（姓名，课程分数）键值对RDD，观察keys(),values()

6. RDD综合练习：更丰富的操作

6. RDD综合练习：更丰富的操作

6. RDD综合练习：更丰富的操作

6、每个学生选修了多少门课？map(), countByKey()

6. RDD综合练习：更丰富的操作

7、每门课程有多少个学生选？map(), countByValue()

6. RDD综合练习：更丰富的操作

8、有多少个100分？

6. RDD综合练习：更丰富的操作

9、Tom选修了几门课？每门课多少分？filter(), map() RDD

6. RDD综合练习：更丰富的操作

6. RDD综合练习：更丰富的操作

10、Tom选修了几门课？每门课多少分？map(),lookup() list

6. RDD综合练习：更丰富的操作

11、Tom的成绩按分数大小排序。filter(), map(), sortBy()

6. RDD综合练习：更丰富的操作

12、Tom的平均分。map(),lookup(),mean()

（没有numpy库的可自行安装pip install numpy，安装成功后重进pyspark即可）

6. RDD综合练习：更丰富的操作

13、生成（课程，分数）RDD，观察keys(),values()

6. RDD综合练习：更丰富的操作

14、每个分数+5分。mapValues(func)

6. RDD综合练习：更丰富的操作

15、求每门课的选修人数及所有人的总分。combineByKey()

6. RDD综合练习：更丰富的操作

16、求每门课的选修人数及平均分，精确到2位小数。map()，round()

6. RDD综合练习：更丰富的操作

17、求每门课的选修人数及平均分。用reduceByKey()实现，并比较与combineByKey()的异同。

6. RDD综合练习：更丰富的操作

reduceByKey：是对key的value进行merge操作，在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，与groupByKey类似，reduce任务的个数可以通过第二个可选的参数来设置，最重要的是它能够在本地先进行merge操作，并且merge操作可以通过函数自定义；

CombineByKey：是一个比较底层的算子（高阶函数），用法如下：
combineByKey(createCombiner,mergeValue,mergeCombiners,partitioner,mapSideCombine)。

createCombiner: V => C ，这个函数把当前的值作为参数，此时我们可以对其做些附加操作(类型转换)并把它返回 (这一步类似于初始化操作)
mergeValue: (C, V) => C，该函数把元素V合并到之前的元素C(createCombiner)上 (这个操作在每个分区内进行)
mergeCombiners: (C, C) => C，该函数把2个元素C合并 (这个操作在不同分区间进行)。

18、结果可视化。 pyecharts.charts,Bar()

6. RDD综合练习：更丰富的操作

6. RDD综合练习：更丰富的操作

原创文章，作者：bd101bd101，如若转载，请注明出处：https://blog.ytso.com/245202.html

map RDD Tom 操作每门练习选修

赞 (0)

0

day28linux正则表达式学习笔记

上一篇 2022年4月18日

yum安装Nginx并支持TCP代理

下一篇 2022年4月18日

发表回复

登录后才能评论