本文为吴恩达 Deep Learning 笔记

机器学习策略 (上)

评价指标

为什么要学习机器学习策略：

当我们构造神经网络模型时，可以从很多方面优化：更多的数据、超参数调试、改变神经网络结构、改进优化算法、正则化。

正交化方法：

Orthogonalization 正交化方法

正交化方法：每次只调试一个参数，保持其它参数不变。这样可以使每一种调节方法对应一重评价，更精确有效的解决问题。
在机器学习中，我们希望模型有四重评价：
- 在训练集上表现好：(如表现不好) 使用更复杂的神经网络结构、改进优化算法 (如使用 Adam)。
- 在验证集上表现好：(如表现不好) 使用更多的数据、正则化。
- 在测试集上表现好：(如表现不好) 使用更大的验证集。
- 在实际应用上表现好：(如表现不好) 改变测试集或代价函数。
早停法 (Early Stopping) 不推荐使用，因为他会影响多个 “功能”，具有正交化。

单值评价指标：

Single Number Evaluation Metric 单值评价指标

Harmonic Mean 调和平均数

准确率和召回率：
- 准确率：预测为正类的正类数量 / 预测为正类的数量。
- 召回率：预测为正类的正类数量 / 正类的数量。
假设有两个模型 /(A/) 和 /(B/)，/(A/) 的准确率 /(P/) 更高，/(B/) 的召回率 /(R/) 更高。我们使用单值评价指标 /(F1/) /(Score/) (/(P/) 和 /(Q/) 的调和平均数) 来评价模型的好坏：

/[F1 = /frac{2 /cdot P /cdot R}{P + R}
/]
除 /(F1/) /(Score/) 外，我们也可以使用平均值作为单值评价指标来对模型进行评估。

满意指标和优化指标：

Satisficing Metic 满意指标

Optimizing Metic 优化指标

把所有的性能指标都综合在一起，构成单值评价指标是比较困难的。
- 我们把一些性能作为满意指标：只要满足阈值即可。
- 我们把一些性能作为优化指标：寻求最优化值。

训练 / 验证 / 测试

训练集 / 验证集 / 测试集划分：

训练集 / 验证集 / 测试集应该是同分布的。

验证集和测试集的大小：

随着机器学习的发展，数据的增加，训练集 / 验证集 / 测试集的划分大小在不断变化。

什么时候改变验证集 / 测试集和评价指标：

机器学习可分为两个过程：找靶心、通过训练以射中靶心。
在训练的过程中可能会根据实际情况改变算法模型的评价标准，进行动态调整。

人类表现

为什么与人类表现做比较：

Human-level Performance 人类表现

Bayes Optimal Error 贝叶斯最优误差

机器学习模型经过训练会不断接近人类表现，甚至超过人类表现，但是超过人类表现后，准确性会上升得较慢，最终不断接近理想的最优情况 (Bayes Optimal Error)。
当构建的机器学习模型的表现还没达到人类的表现水平时，我们会使用各种方式来提升它：
- 采用人工标记过的数据进行训练。
- 通过人工误差分析了解为什么人能够正确识别。
- 进行偏差、方差分析。

可避免偏差：

Avoidable Bias 可避免偏差

偏差与方差：
- 训练误差与人类表现误差之间的差值称为偏差 (Bias)，也叫做可避免偏差 (Avoidable Bias)。
- 训练误差与测试误差之间的差值称为方差 (Variance)。
- 参考《偏差 / 方差》一节。
如果偏差大于方差，应专注于减少偏差；如果方差大于偏差，应专注于减少方差。

理解人类表现：

不同人群的人类表现不同，一般来说，我们将表现最好的人类群体作为人类表现。
不同人类表现误差的选择会影响偏差和方差的相对变化。
当模型表现很好，接近贝叶斯最优误差时，人类表现误差难以准确定义，人类表现误差对方差与偏差谁者重要的影响也越大。

超过人类表现：

在很多方面，机器学习模型的表现已经超过人类，如：广告、商品推荐、物流时间估计、货款审批。
当算法模型的表现超过人类表现时，很难再通过人的直觉来解决如何继续提高算法模型性能的问题。

改善模型的表现：

比较训练误差与人类表现误差之间的差值 (Bias) 和训练误差与测试误差之间的差值 (Variance)。
解决 High Bias 的方法：
- 更大的模型。
- 改进优化算法：Momentum, RMSprop, Adam。
- 神经网络结构 / 超参数。
解决 High Variance 的方法：
- 更多的数据。
- 正则化：L2, Dropout, 数据增强 (Data Augmentation)。
- 神经网络结构 / 超参数。

机器学习策略 (下)

误差分析

误差分析：

Error Analysis 误差分析

猫的识别例子：
- 已知模型错误率为 /(10/%/)，检查发现，该模型会将一些狗类图片错误分类成猫。
- 一种解决办法是扩大狗类 (负样本) 图片的数量，误差分析帮助判断是否值得花时间这样做。
  - 从分类错误的样本中统计出狗类图片的数量。
  - 如果狗类样本占 /(5/%/)，则扩大狗类图片的数量只能使错误率降为 /(9.5/%/)。
  - 如果狗类样本占 /(50/%/)，则扩大狗类图片的数量能使错误率降为 /(5/%/)。
- 通常来说，比例越大，影响越大，越应该花费时间和精力着重解决这一问题。

清理标注错误的数据：

有时会发现数据集中有些样本被人为地错误标记了。
- 如果是训练集中样本被错误标记，由于机器学习算法对于随机误差的稳健性，只要出错样本数量较少，分布随机，就不必花时间修正。
- 如果是验证集 / 测试集中样本被错误标记，与《误差分析》一节相同，统计测试集中所有分类错误的样本中标注错误的数据的比例，决定是否修正所有标注错误的数据。

快速构建一个系统并迭代：

先快速构建第一个简单模型，然后再反复迭代优化。

数据不匹配

训练集 / 测试集的不同划分：

训练集和验证集 / 测试集的来源不同：
- 方法一：将训练集与验证集 / 测试集混合，随机选一部分做训练集，另一部分做验证集 / 测试集。
- 方法二：将训练集与一部分验证集 / 测试集作为新的训练集，另一部分验证集 / 测试集作为新的验证集 / 测试集 (这种方法较为常用，性能较好)。

不同数据集划分的偏差和方差：

Data Dismatch 数据不匹配

如果训练集和验证集 / 测试集来自不同分布，则不能直接比较训练集误差和验证集 / 测试集误差。
解决方案：从训练集中划分出一部分作为训练 – 验证集 (Train-dev Set)。
- 训练 – 验证集误差与训练集误差之差反应了方差 (Variance)。
- 训练 – 验证集误差与验证集之差反应了数据不匹配 (Data Dismatch)。
- 参考《可避免偏差》一节。

解决数据不匹配问题：

Artificial Data Synthesi 人工数据合成

进行误差分析，人工检查训练集和验证集 / 测试集。
尝试将训练集数据调整的更想验证集 / 测试集，使用人工数据合成等方法。

其他机器学习方法

迁移学习：

Transfer Learning 迁移学习

Pre-training 预训练

Fine-tuning 微调

迁移学习：将已经训练好的模型的一部分知识 (网络结构) 直接应用到另一个类似模型中。
迁移学习的做法：
- 方法一：利用之前的神经网络模型，只改变样本输入、输出以及输出层的权重系数 /(W^{[L]}/), /(b^{[L]}/)，其它层所有的权重系数 /(W^{[l]}/), /(b^{[l]}/) 保持不变。
- 方法二：只保留网络结构，重新训练所有层的权重系数。
迁移学习可以保留原神经网络的一部分，再添加新的网络层，具体问题，具体分析。
预训练和微调：
- 初始 /(W^{[l]}/), /(b^{[l]}/) 由之前的模型训练得到，这一过程称为预训练。
- 之后不断调试、优化 /(W^{[l]}/), /(b^{[l]}/) 的过程称为微调。
迁移学习的使用场景：
- 任务 /(A/) 和任务 /(B/) 有同样的输入。
- 任务 /(A/) 有更多数据，从人物 /(A/) 迁移到任务 /(B/)。
- 任务 /(A/) 的低层次特征对任务 /(B/) 的学习有帮助。

多任务学习：

Multi-task Learning 多任务学习

多任务学习：构建神经网络同时执行多个任务。
- 如：识别行人、车辆、交通标志和信号灯。
- 多个任务之间具有相关性，如抹口红和戴耳环。
多任务学习与 Softmax：
- 多任务学习的输出向量 /(y/) 可以有多个元素为 /(1/) (多任务学习中，可能存在训练样本 /(y/) 某些标签为空白的情况，这并不影响多任务模型的训练) 。
- Softmax 的输出向量 /(y/) 只有一个元素为 /(1/)。
多任务学习的使用场景：
- 训练的一组任务可以共用低层次特征。
- 每个任务的数据量相近。
- 能够训练一个足够大的神经网络，以同时做好所有的工作。

什么是端到端的深度学习：

End-to-end Deep Learning 端到端的深度学习

端到端深度学习：
- 将所有不同阶段的数据处理系统或学习系统模块组合在一起，用一个单一神经网络模型实现所有的功能。
- 将所有模块混合在一起，只关心输入和输出。
- 训练样本足够大，神经网络模型足够复杂，端到端深度学习模型性能比传统机器学习分块模型更好。

是否要使用端到端的深度学习：

端到端深度学习的优点：
- 只要有足够多的数据，剩下的全部交给一个足够大的神经网络。比起传统的机器学习分块模型，可能更能捕获数据中的任何统计信息，而不需要用人类固有的认知来进行分析。
  
  Let the data speak.
- 所需手工设计的组件更少，简化设计工作流程。
端到端深度学习的缺点：
- 需要大量的数据。
- 排除了可能有用的人工设计组件。

参考

原创文章，作者：jamestackk，如若转载，请注明出处：https://blog.ytso.com/275416.html

【Deep Learning】构建机器学习项目

机器学习策略 (上)

评价指标

训练 / 验证 / 测试

人类表现

机器学习策略 (下)

误差分析

数据不匹配

其他机器学习方法

参考

发表回复

【Deep Learning】构建机器学习项目

机器学习策略 (上)

评价指标

训练 / 验证 / 测试

人类表现

机器学习策略 (下)

误差分析

数据不匹配

其他机器学习方法

参考

相关推荐

发表回复