两年的时间,大数据像雨后的野草一样,顽强的长满了草原。不管是互联网的、金融的、医疗的、汽车的,好像不提大数据,就像是落伍了一样的。
近期笔者所在团队给某部位的研究院做了大数据的一个可行***规划,有些事,正好与各位做一个分享。
大数据,顾名思义,数据量特别大,按照定义来说,就是数据量特别大,无法用传统的手段解决。所谓传统的手段,也就是业界内注明的IOE,即,高性能服务器+专用存储设备+数据库设备。其实,大数据这个词虽然是近些年才火起来,但是大数据一直存在,不过是由于互联网、移动互联网的飞速发展,导致近些年的增长速度越来越快。同时互联网的迅速发展,也使得国外的Google、FaceBook,国内的BAT对数据进行深层次价值挖掘,进一步促进其发展。
大数据在互联网内的发展迅猛,使得各个国家纷纷出手,美国发布政府公共大数据计划之后,欧盟、中国等也均投入这一战斗当中。在我国,政府的大数据公开计划刚开始,各部委下属的研究院所,各大央企也都开始发声自己已经、正在、马上开展大数据项目。可是,对于大数据项目,政府、企事业单位的信息化人员们,你们做好准备了吗?下面从几个角度给大家提一些建议。
-
数据源是一切的基础
其实,不管大数据、小数据,效果在于价值,起点在于数据,如果没有合适的数据来源,或者数据来源还使用的传统的纸质文档管理,那么,大数据对你是没有价值的,你需要做的第一步是如何用信息化手段,量化企业的数据。数据的信息化,是一切的基础。没有一个坚实的数据源,一切都是妄谈。
2.业务的目标是数据价值的方向
这点在很多的文章里都提过,不过很多都是希望你根据业务目标,分解业务场景,然后再进行数据建模等等。这里想说的,业务的目标很重要,但是你不能指望企业领导或者业务人员,既告诉你想吃烤鸡翅膀,又得告诉你烤鸡翅膀怎么做。很多时候,引你进门之后,剩下的是数据分析人员需要做的事情,包括业务目标的分解,包括数据源的选择,包括数据采集方式的确定,包括数据模型的建立。用户需要做的事情是,确认你做的结果和他的要求差距有多大。
3.技术方案的选择同样很重要
对于用户来说,技术方案就像无字天书,看着都很高大上,但是作为一个技术人员或者数据分析供应商,你需要考虑的问题不知高大上,还有落地。中国目前国企范围内的大数据项目成功的几率低的让人可怜。究其原因,技术方案的不可落地,在做技术方案的时候,你是否科学的估算了数据量?在计算量不可估算的情况你会如何处理?你是否选择虚拟化作为集群服务器的管理层?实体物理服务器如何管理?计算内容是批处理多一些还是流计算多一些?业务可能会需要哪些算法作为支撑?笔者前期做大数据项目时,遇到的一个难题是,选择虚拟化架构的集群还是选择物理服务器的集群?二者到底有多大的区别。
4.数据的运营是在项目之初应该预见的
很多时候,做一个大数据项目,不只是要一个分析结果,更多的是要做一个数据运营,因为用户的数据更多的是未来的数据,如何让你的大数据项目能够适应用户未来的发展,是在大数据项目之初就应该预见的,也是在规划过程中需要给用户做出足够的设计的。如果不考虑数据未来如何来,如何采集,如何用,如何发挥价值,分析后的结果如何支撑用户的大数据项目,用户的大数据也只能局限在一年、两年……真正的大数据虽然不能像永动机,但是好歹也应该是风车,只要有风,就能转下去。
原创文章,作者:3628473679,如若转载,请注明出处:https://blog.ytso.com/195053.html