google AI 最新博文：模型的不确定性是否可信？

在实际应用中，机器学习模型遇到的数据并不总是具有相同的分布。在这种情况下，模型的精度会如何变化？近日，Google AI 发布了一篇博文，讨论了这个问题，他们认为，在数据集转移的情况下，不确定性的质量会下降，但是一些有希望的研究方法可以缓解这种情况。原文大意如下：

在理想情况下，机器学习方法（如深度学习）被用来对与训练数据分布相同的数据进行预测。但实际情况可能大不相同：相机镜头变得模糊，传感器退化等问题，都可能导致训练模型与应用模型数据分布之间的差异，从而导致所谓的协变量偏移。例如，最近有人观察到，接受过胸部 x 光检查肺炎训练的深度学习模型，在根据以前没遇到过的医院数据进行评估时，其精确度水平将大不相同，部分原因是图像采集和处理方面的细微差异。

在 NeurIPS 2019 上，我们的论文「Can you trust your model’s uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift」对最先进的深度学习模型的不确定性进行了基准测试，因为它们暴露于不断变化的数据分布和分布外的数据。在这项工作中，我们考虑各种输入模式，包括图像、文本和在线广告数据，将这些深度学习模型用于不断变化的测试数据中，同时仔细分析其预测概率的行为。我们还比较了各种不同的方法来提高模型的不确定性，看看哪些策略表现最好。

什么是分布外数据？

深度学习模型为每个预测提供一个概率，这个概率表示模型的可信度或不确定性。因此，当数据不在原始训练数据集的范围内时，它们可以表达它们不知道的内容，避免预测。在协变量移位的情况下，不确定性理想情况下会随着精度的任何降低而成比例增加。一个更极端的情况是，数据不在分布范围内（OOD）。例如，你可以设想一下，当一个猫狗图像分类器遇到飞机图像时会发生什么。这个模型是自信地预测错误，还是根据概率进行分类？在此前的文章中，我们最近讨论了我们开发的识别此类 OOD 示例的方法。在这项工作中，我们分析了分布外模型的预测不确定性，并转移了实例，以查看模型预测概率是否反映了它们对此类数据的预测能力。

量化不确定度的质量

一个模型比另一个模型更能反映其不确定性意味着什么？虽然这可能是一个细致入微的问题，通常是由下游任务定义的，但有一些方法可以定量评估概率预测的总体质量。例如，气象界仔细考虑了这一问题，并制定了一套适当的评分规则，天气预报的概率比较函数应满足这些规则，以便能够很好地进行校准，同时也有利于提高准确度。我们应用了一些适当的评分规则，如 Brier 评分和负对数似然（NLL），以及更直观的启发式方法，如预期校准误差（ECE），来了解不同的 ML 模型如何处理数据集移位情况下的不确定性。

实验

我们分析了数据集移位对各种数据模式（包括图像、文本、在线广告数据和基因组学数据等）不确定性的影响。举个例子，我们演示了数据集移位对 ImageNet 数据集的影响。ImageNet 将 100 多万张图像分为 1000 个不同的类别。一些人现在认为这一挑战已经基本解决，并且已经开发出更难的变体，例如损坏的 Imagenet（或 Imagenet-C），其中数据有 16 种不同的损坏，每种损坏的强度分为 5 种。