雷锋网(公众号:雷锋网)按:本文为 AI 研习社编译的技术博客,原标题 10 Examples of How to Use Statistical Methods in a Machine Learning Project ,作者为 Jason Brownlee 。
翻译 | 赵若伽 校对 | 陈涛 整理 | MY
统计学和机器学习是两个联系特别紧密的领域。
事实上,这两者的界限有时候非常模糊。然而有一些明显属于统计学领域的方法,不仅可用于机器学习的项目,并且极具价值。
公平地说,需要统计学方法来有效地完成机器学习预测建模项目。
在这篇博客中,你会了解到一些能在预测模型问题的关键步骤中发挥作用的统计学方法的具体例子。
在阅读完这篇博客后,你会了解:
-
探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。
-
统计学方法可以用来清洗和准备建模要用的数据。
-
统计假设检验和估计统计可以帮助进行模型选择,并展示最终模型的技能和预测结果。
让我们开始吧。
(在应用机器学习项目中使用统计学方法的十个例子。图片来自于 chenutis,版权归其所有。)
概述
在这篇博客中,我们将会着重讲一下如何在应用机器学习项目中使用统计学方法的十个例子。
这将证明统计学知识对于成功解决预测建模问题至关重要。
-
问题架构
-
数据理解
-
数据清洗
-
数据选择
-
数据准备
-
模型评估
-
模型配置
-
模型选择
-
模型表达
-
模型预测
1. 问题架构
也许预测模型问题中最困难的一点就是问题的架构。
这包括了问题类型的选择,例如是回归还是分类,也许还有这个问题的输入和输出的结构及类型。
问题的架构并不是一直都很清晰,对于某个领域的新手,可能需要对这个领域中的观察值进行一些深入探索。
而对于这个领域的专家,他们可能会以墨守成规的角度去看问题,从而受困其中,他们也需要从多角度去思考数据,才能有所收获。
统计方法在问题的架构阶段有助于对数据的探索,其中包括:
-
探索性的数据分析。为了从数据中探索到特别的观点,从而进行的汇总和可视化。
-
数据挖掘。自动探索数据间的结构关系和模式。
2. 数据理解
数据理解意思是对变量的分布和变量之间的关系有一个更详细的理解。
这些知识其中一部分来自于这个领域的专业知识,或者需要专业知识去解释。然而,专家和新手都会从处理领域内的真实观察值中获益。
用在理解数据的统计学模型的两类主流分支是:
-
汇总统计。使用统计数值来汇总变量间的分布和关系的方法。
-
数据可视化。总结变量间的分布和关系的方法需要用到可视化的方法,例如:图表,绘图和图形。
3. 数据清洗
一个领域中的观察值往往存在些瑕疵。
虽然数据是数字化的,但存在一些过程会降低数据的精确性,反过来,后续用到数据的过程及模型也会受其影响。
例如:
-
数据破坏。
-
数据错误。
-
数据损失。
识别和修复这些问题数据的过程也叫做数据清洗。
统计方法应用于数据清洗中例子有:
-
异常点检测。在数据分布中识别出离期望值很远的观察值的方法。
-
数据填补。修复或填补观察值中损坏或缺失数据的方法。
4. 数据选择
在建模时,不是所有观察值或所有变量都是相关的。
减小这些元素的数据范围的操作对于做出预测值是很有用的,这个过程叫做数据选择。
应用在数据选择的两种统计学方法:
-
数据采样。从较大的数据集中系统化创建较小的代表性样本的方法。
-
特征选择。自动识别与结果变量更有相关性的变量的方法。
5. 数据准备
数据一般不会直接拿来建模。
为了改变数据的形状或结构,使它更适用于选定的问题架构或学习算法,需要对数据进行必要的转化。
数据准备也会用到统计模型,例如:
-
缩放。例如标准化和规范化。
-
编码。例如整数编码和独热编码。
-
变换。例如 Box-Cox 变换那样的次方转换。
6. 模型评估
预测模型问题的一个重要部分是对学习方法进行评估。
对模型的能力的评估主要是对未经过训练的数据进行预测。
通常,训练过程和评估预测模型的规划过程叫作实验设计,这是统计方法的一个子领域。
-
实验设计。设计系统化的实验来比较独立的变量对结果影响的方法,比如对比预测的精度来选择机器学习算法。
作为实现实验设计的一部分,为了对可利用的数据做最合理的利用同时也为了评估模型的能力,统计学方法被用来重采样一个数据集。这两个目的代表了统计模型的子领域。
-
重采样方法。为了训练和评估预测模型而将数据集系统化分出子集的方法。
7. 模型配置
给定的机器学习算法通常有一套使学习方法能够适应特定问题的超参数。
超参数的配置通常是经验性的,而不是由分析得出的。这需要大量的实验,以评估不同超参数值对模型性能的影响。
两种统计学的子领域的方法可以用于对不同超参数配置产生的结果进行解释和比较,它们是:
-
统计假设检验。根据对结果的假设或期望值,对观察到的结果出现概率进行量化的方法。(提出使用临界值和 p 值)
-
估计统计。使用置信区间去量化一个结果的不确定性的方法。
8. 模型选择
给定一个预测建模问题,在众多机器学习算法中可能有一个算法最适合该问题。
选择一种方法作为解决方案的过程称为模型选择。
这可能涉及到项目参与者的自身条件以及用于评估问题的方法的估计技能能否对其给出详细解释。
与模型配置一样,可以使用两类统计方法来解释不同模型的估计技能,并用于模型选择。他们是:
-
统计假设检验。根据对结果的假设或期望值,对观察到的结果出现概率进行量化的方法。(提出使用临界值和 p 值)
-
估计统计。使用置信区间去量化一个结果的不确定性的方法。
9. 模型表示
一旦最终模型训练完成,可以在部署其对真实数据进行预测前先展示给相关人员查看。
展示最终模型的一个环节包括展示模型的估计技能。
估计统计领域中的方法可以通过容忍区间和置信区间对机器学习模型的评估能力的不确定性进行量化。
-
估计统计。使用置信区间去量化一个结果的不确定性的方法。
10. 模型预测
最后,我们可以使用最终的模型来对我们不知道其输出的新数据进行预测。
作为预测的一部分,量化预测的置信度非常重要。
就像模型表示的过程一样,我们可以使用估计统计领域的方法来量化这种不确定性,例如置信区间和预测区间。
-
估计统计。使用置信区间去量化一个结果的不确定性的方法。
总结
在本教程中,你已经了解了统计方法在整个预测建模项目过程中的重要性。
具体来讲你学到了:
-
探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。
-
统计学方法可以用来清洗和准备建模要用的数据。
-
统计假设检验和估计统计可以帮助进行模型选择,并展示最终模型的技能和预测结果。
原文链接:https://machinelearningmastery.com/statistical-methods-in-an-applied-machine-learning-project/
号外号外~
一个专注于
AI技术发展和AI工程师成长的求知求职社区
诞生啦!
欢迎大家访问以下链接或者扫码体验
https://club.leiphone.com/page/home
雷锋网雷锋网
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/134278.html