描述性统计分析主要是对所收集的数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,它包括数据的集中趋势分析、数据离散程度分析、数据的频数分布分析等,描述性统计分析是对数据进一步分析的基础。譬如在流行病描述性研究中按不同地区、不同时间及不同人群特征进行分组,描述人群中有关疾病或健康状态以及有关特征和暴露因素的分布状况,在此基础上进行比较分析,获得疾病三间(人群、地区、时间)分布的特征,进而获得病因线索,提出病因假设和线索。
一、描述性统计指标
描述性分析就是用少数几个数值(比如平均值、中位数等)描述一系列复杂数据所表达的信息,比如描述数据的整体分布情况、波动情况、数据异常情况。描述性统计指标大致可分为三类:集中趋势指标、离散趋势指标和分布形态指标。
1.1 集中趋势指标
①众数:众数是值指出现次数最多的那个变量值。
②平均数:平均数又称均值,是最常用的一个数据代表值,平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。根据样本数据的不同格式,这里介绍两种常见的算术平均数的计算方法,一种是简单算术平均数,另一种是加权算术平均数。我们都知道在进行数据分析时,通常有两种数据格式。一种是常规格式(非加权格式),另外一种是加权数据格式。
③中位数:中位数是样本数据升序排列后的最中间的数值,如果数据偏离较大,一般用中位数描述整体水平情况。从中位数的计算方法可以看出,它和每个数据的位置有关系,所以如果有极端值出现,无论是特别大或特别小的极端值,都会因为对所有样本数据排序的这个动作,而被排列到某个数列的两端去,它不会有机会被排序到中间位置,而中位数是最中间位置的数,所以极端值不会影响到中位数,这样当有极端值出现,我们无法用平均值很好的描述数据情况,就可以使用中位数。
1.2 离散趋势
①极差(全距):极差的计算很简单,极差等于最大值减最小值,因为计算简单,概念清晰,所以应用比较广泛。
②四分位数:四分位数是把全部数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数。上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数);下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数);中间的四分位数即为中位数。
四分位数是指在把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值,分割后我们会通过5个数值来描述数据的整体分布情况。下界:最小值,即第0%位置的数值;下四分位数:Q1,即第25%位置的数值;中位数:Q2,即第50%位置的数值;上四分位数:Q3,即第75%位置的数值;上界:最大值,即第100%位置的数值。优点:可以用来对比不同类别数据的整体情况,还可以识别出可能的异常值。
③方差与标准差:方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是对方差开方。方差与标准方差与标准差反映一组数据的平均离散水平。方差小,表示数据集比较集中,波动性小,方差大,表示数据集比较分散,波动性大。
④变异系数:也叫离散系数,是标准差和平均值的比值。用于观察指标单位不同时,如身高与体重的变异程度的比较:或均数相差较大时,如儿童身高与成人身高变异程度的比较。变异系数大,说明数据的离散程度大。
1.3 分布趋势
①峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数>0,则两侧极端数据较少,比正太分布更高更瘦,呈尖哨峰分布;峰度系数<0,则两侧极端数据较多,比正态分布更矮更胖,呈平阔峰分布。
②偏度:以正态分布为标准描述数据对称性的指标。偏度系数=0,则分布对称;偏度系数>0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。
二、描述性指标计算
library(psych)
head(mtcars)
describe(mtcars$mpg) #描述性统计量
describe(mtcars)
describe(mtcars)
vars n mean sd median trimmed mad min max range skew kurtosis se
mpg 1 32 20.09 6.03 19.20 19.70 5.41 10.40 33.90 23.50 0.61 -0.37 1.07
cyl 2 32 6.19 1.79 6.00 6.23 2.97 4.00 8.00 4.00 -0.17 -1.76 0.32
disp 3 32 230.72 123.94 196.30 222.52 140.48 71.10 472.00 400.90 0.38 -1.21 21.91
hp 4 32 146.69 68.56 123.00 141.19 77.10 52.00 335.00 283.00 0.73 -0.14 12.12
drat 5 32 3.60 0.53 3.70 3.58 0.70 2.76 4.93 2.17 0.27 -0.71 0.09
wt 6 32 3.22 0.98 3.33 3.15 0.77 1.51 5.42 3.91 0.42 -0.02 0.17
qsec 7 32 17.85 1.79 17.71 17.83 1.42 14.50 22.90 8.40 0.37 0.34 0.32
vs 8 32 0.44 0.50 0.00 0.42 0.00 0.00 1.00 1.00 0.24 -2.00 0.09
am 9 32 0.41 0.50 0.00 0.38 0.00 0.00 1.00 1.00 0.36 -1.92 0.09
gear 10 32 3.69 0.74 4.00 3.62 1.48 3.00 5.00 2.00 0.53 -1.07 0.13
carb 11 32 2.81 1.62 2.00 2.65 1.48 1.00 8.00 7.00 1.05 1.26 0.29
三、总结
在数据分析的工作中,统计学可谓是灵魂角色,正是通过统计,让我们获得海量的数据,也正是通过统计学的各种分析策略,让数据变得有意义。通过统计分析,可以让国家知道国民的健康水平,并为国家作出策略性引导;也可以分析出哪个地区,甚至细致到哪个街区的某个位置点的犯罪率如何,一方面可为警力的调配作参考,另一方面还可以提醒市民出行注意安全……。随着社会发展越来越快,我们已经身在各种数据统计的角色中了,通过统计分析发现规律,也成为了我们生活中不可或缺的一部分。
参考文献
原创文章,作者:,如若转载,请注明出处:https://blog.ytso.com/270487.html