各种数据分析技术的对象是数据源中的数据
数据源中的数据可能不完整(如某些属性的值不确定或空缺)、含噪声和不一致(如同一个属性在不同表中的名称不同) 、量纲不同
如果直接在这些未经处理的数据上进行分析,结果不一定准确,效率也可能较低
需要使用清理、集成、变换、归约等预处理方法改善数据质量,从而提高数据分析的效率与质量
主要介绍数据清理、集成、变换、规约等预处理技术
数据清理用于消除噪声、数据不一致及数据不完整
噪声可以通过平滑、识别孤立点等方法进行消除
分箱技术:将数据排序,根据等深或等宽分布规则将数据分布到不同箱中,将同一箱中的数据用用该箱中数据的平均值或中值、边界值替换(平均值平滑、中值平滑、边界平滑)
设某属性的值为18,12,3,9,7,6,15,21,16,采用分箱技术平滑数据消除噪声。分布规则为等深、深度为3,平滑规则为平均值平滑
首先,将属性的值排序为3, 6, 7, 9, 12, 15, 16, 18, 21
数据不完整可以使用下列方法消除:
1)使用一个全局常量填充
2)使用属性平均值填充
3)使用相同类的属性平均值填充
4)使用最可能的值填充 需要采用预测算法,预测给定样本的最可能的值并填充
数据不一致可以通过元数据消除(描述数据的数据)
数据集成
数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中
这些数据源可能包括多个数据库、数据立方体或一般文件
在数据集成时,需要消除冗余——能够由另外的属性“导出”、命名的不一致的属性
冗余可以通过相关分析进行检测
属性A、B之间的相关性计算:
rA,B>0,A与B正相关,A的值随着B的值的增加而增加
rA,B<0,A与B负相关,A的值随着B的值的增加而减少
rA,B=0,A与B独立。因此,|rA,B|很大时,A与B可以去除一个
数据变换
将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0到1.0或0.0到1.0
最小-最大规格化:
[minA,maxA]为数值属性A规格化前的取值区间
[new minA,new maxA] 为A规格化后的取值区间,最小-最大规格化根据下式将A的值v规格化为值v’
采用最小-最大规格化方法将[-100,100]中的66规格化到区间[0,1]
原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/tech/opensource/193521.html