如何用spark分析网吧同行朋友思路

本篇文章为大家展示了如何用spark分析网吧同行朋友思路,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

mysql库中有2.5kw网吧轨迹数据,需要计算同行关系:计算两人在相同网吧十分钟前后上下网三次及以上(如:a和b在19号十分钟前后出现在了A网吧,又在21号十分钟前后出现在了B网吧,再在22号十分钟前后出现在了D网吧)就需要保留他们的身份ID和一起上下网的次数。2.5kw轨迹中有8k+网吧请问有什么思路吗?

如果flink有更好的处理方式也可以。

使用用一个mysql的连接器,但是这东西需要配置一个分区列。

直接用的网吧编号。这样会分8000多分区(而且后面的逻辑也没有用到这个分区列),是不是有问题?今天测试了一下。两个网吧,3w多数据,两个小时没跑完。。(我们是先用连接器抽出数据,按照网吧分组计算单次然后聚合筛选3次及以上的)网吧数据从几条到几万条不等。

分区列的问题解决:

  1. 可以采用时间戳(long型)分区,会造成多余的一次shuffle。
  2. 自定义jdbcRDD,我记得以前分享过网上也有资料,这样就可以自定义分区策略了。 数据还是要有明显的分区列的
  3. 增加自增ID列。
处理思路:
 

按照网吧ID进行group by,然后同组内两两组合,判断A,B进入网吧时间差值是否小于10min,同时判断离开网吧的时间是否相差10min以内,1.如果两者都是true就保留,否则过滤。保留人物ID要进行两两组合,比如,A#B;两者的顺序可以定义个排序策略,比如字符串的话字典排序,这样下面可以用。flatmap展开之后key和value翻转。
2.然后在进行一次group by(key),此时的key就是A#B的组合了,value是网吧,然后统计value的size是否大于三。
3.有疑问就是两个人相同时间下班,住的距离比较近,就经常去相同的离他们都近的网吧,同时上下网,不是同行,确实巧合。这个是否要处理。

上述内容就是如何用spark分析网吧同行朋友思路,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注亿速云行业资讯频道。

原创文章,作者:3628473679,如若转载,请注明出处:https://blog.ytso.com/223229.html

(0)
上一篇 2022年1月6日
下一篇 2022年1月6日

相关推荐

发表回复

登录后才能评论