Java程序员该如何转型大数据方向详解大数据

Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。

hadoop本身是用来存储和处理数据的。这里hadoop不是重点，重点是数据。主要包括基于hadoop建企业级数据仓库、基于Mapreduce做数据处理程序。数据仓库是把数据整合进来，重点衡量指标是数据仓库的数据质量是不是好；数据处理程序的重点是分析出来的东西是不是有价值。

hadoop／spark虽然是java／scala开发但是没必然联系
python javaｓｃｒｉｐｔ sql也能写业务算法（估计99.99%多人不会改引擎一行代码）
这个就简单了本科生就能搞定
另外大数据是传统数据获取（爬虫）＋分析＋处理（商业智能）＋预测＋判断（机器学习）
加上大而全的数据
因为有开源的hadoop／spark 涉及大数据业务逻辑很多时候一个人可以搞定
（以前要一堆人）aws azure都有大数据处理paas 开箱即用运维都省了

大数据目前应用场景有限主要原因是数据量不足低过12tb的数据处理sql数据库够用了。

想转型的话尽量早点转型，越早越好，如果到了大数据满大街都是的时候，你就不值钱了！

转载请注明来源网站:blog.ytso.com谢谢！

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/9732.html

Java程序员该如何转型大数据方向详解大数据

相关推荐

发表回复