1. 什么是数据分析
1) 数据分析发展背景
进入到 21 世纪以后,伴随着互联网的迅速发展,大数据应运而生,越来越多的数据被不断的挖掘出来,形成了“数据为王”的时代。就拿我们自己举例子,比如你的购物习惯、你的喜好等等,这些都会组成数据,对你购物习惯的分析会帮助购物平台更精准的推荐商品,这只是数据分析应用的冰山一角,它还可以应用到金融领域、交通领域、畜牧业等等。
随着数据规模越来越庞大,单靠人力重复的脑力劳动已经无法跟上行业的发展态势,人类的智慧应该更多应用于决断与选择层次,而让数据分析成为人类的一种辅助工具,可以帮助决策者更明确做出预期判断与预测,这也是促使 Python 语言快速走红的原因。
图1:数据分析
2) 数据分析的目的
从上面介绍可以看出,数据分析并不是一个新兴的概念,只是伴随着时代的发展,或者更准确的讲是互联网的浪潮的发展,推动它逐渐演化成了一个行业,行业的从业人员称为“数据分析师”,从业者的主要职责就是不断从杂乱无章的的数据挖掘出存在价值的有效信息,再通过所研究它们并找出内在规律,这些信息的最终的目的是辅助人们做出决策,管理科学上有一个专业名词就是“不断寻找最优解”的过程。
在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向。
图2:数据分析
3) 数据分析的定义
综上所述我们给出数据分析的定义:数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
2. 数据分析的应用
在上面我们简单的介绍了一下数据分析的应用,下面我们讲一个小案例,你就能体会到数据分析无处不在,以及它的作用。
1) 啤酒与尿布的故事
“啤酒与尿布”的故事产生于 20 世纪 90 年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上,他们在购买尿布的同时,往往会顺便买啤酒犒劳自己,这就是上述情况出现的原因。
图3:啤酒与尿布
沃尔玛发现了这一独特的现象,开始尝试将啤酒与尿布摆放在相同的区域的促销手段,从而提高了这两件商品销售收入,这就是“啤酒与尿布” 故事的由来。在这个案例中可以发现,通过研究顾客的购物习惯,发现了购物人群对商品的需求性,商家发现后做出相应的调整策略,从而实现了增加利润的目的,两个毫无关联的商品通过数据分析的手段,挖掘出来了潜藏的商机,这是精准营销典型案例。
2) 股票走势预测
一入股市深似海,玩过股票的朋友对此深有体会,股票的走势预测也是通过数据分析的手段完成的,通过预测结果提供给持股人参考意见。这里的预测结果并不是无中生有,亦或是是空穴来风,而是经过准确的数据分析之后得出的结论。
现在市面上各种股票分析软件很多,它们就是通过对某支股票之前涨跌数据经过分析后,给出合理的意见,有最近一年的、最近一周的、最近三天的,数据分析的越多得出结论越趋于合理。当然股票行情由于存在的影响因素居多,比如企业并购、管理层更换、国家政策等等,所以股票的数据分析最终只能是一种参考而已,最终的决定权还在持股人手里,但是这种对于股票的数据分析无疑给玩股票的人提供了更多有效信息。
图4:股市预测
3. 数据分析的方法
通过上面的介绍,大家对于数据分析有了基本的认识,那么应该如何进行数据分析呢?数据分析的常用方法有哪些呢?我们进行简单的了解。
1) 数据分析大致过程
数据分析过程的主要由识别信息需求、收集数据、分析数据以及评价并改进数据分析的有效性组成。
明确需求,这是确保数据分析过程有效的首要条件,可以为收集数据、分析数据提供清晰的目标,在这个阶段要确定哪些因素影响最终的结论,比如对一个 app 的用户进行分析,会包括对新增用户、活跃用户、启动次数、留存率的分析。收集数据要有目的性,数据要确保真实、全面与充分,比如你要统计平均身高,如果你收集身高 180cm 或者150cm,那就会造成数据偏差。
2) 数据分析常用工具
我们将如何进行数据分析的方法作为关注的重点,数据的分析最终结果会以直观可视化的形式展现出来,比如柱状图、曲线趋、概率分布图等等,形式有很多种,这里面就涉及到诸多的数学知识。
现在市面上有很多软件,可以帮助我们很快的形成可视化的结果,比如大家都熟悉的 Excel,还有一些亲民类的软件诸如 Origin、SPSS software、 Tableau、PowerBI 等,它们都是数据分析的得力助手,但它们的不足也是显而易见的:操作繁琐,复用性差,功能相对局限单一。而对于程序猿来说主要使用 Python、Matlab、R 语言进行数据分析软件的开发或者从事数据分析的工作。
3) 数据分析常用方法
当我们进行数据分析的时候,要根据不同的场景,选择合适的分析方法,这是一点是比较难的,我们可以把简单理解为找到一种最适合分析的策略,亦或是“模型”,我们简单列举几种方法:
- 对比分析法,分析差异,揭示数据代表的事物的发展变化和规律性。
- 相关分析法,用来研究变量之间存在但又不确定的相互关系以及密切程度的分析,确定有无关系,确定现象之间关系的密切程度。
- 综合评价分析法,将多个指标转化为一个能够反映综合情况的指标进行评价,用于解决复杂的分析对象。
还有诸多种分析方法,比如回归分析、聚类分析等等,我们把它们当成一种模型最合适不过了,因为这些模型也是在数学方法的基础上提炼出来,经过不断验证才形成的,所以你不必纠结不理解原理,只要记住它们的使用场景以及使用流程就可以了。记住你不是科研工作者,你要做就是“拿来主义”,只要解决了你所遇到的问题,又何必钻牛角去研究那些科学家历经 n 多年推导论证出来的公式呢。
以上就是本节的主要内容,相信大家通过介绍对于数据分析是什么不再陌生。在下一节我们将讲述 Pyhon 与数据分析的渊源,告诉你为什么会选择 Python 语言做数据分析。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/24043.html