实用主义者的线性回归假设指南
忘记假设的清单:您需要什么取决于您的用例
Image generated by the author with AI model DALL·E mini. Prompt: “compass next to math formulas”. Credits: craiyon.com
许多关于线性回归及其假设的文章看起来像长长的洗衣单。这些列表似乎与数据科学家在实践中使用线性回归的方式几乎没有联系。此外,他们给出了错误的想法——除非你的数据满足所有假设——否则你不应该使用线性模型。
在这里,我想翻转通常的方法:而不是列出我想从用例开始的假设。你需要线性回归做什么?你需要它来做预测吗?还是你需要它来理解因果关系?如果是这样,你想量化它的不确定性吗?这些问题的答案告诉你你真正需要什么假设。
这种方法更有用,因为它反映了数据科学家的实际日常工作(我们从要解决的问题开始,然后考虑适当的统计工具箱,而不是相反!)。
TL;博士
对于数据科学中的许多用例(以预测为中心),您只需要几个假设(随机抽样,没有完美的多重共线性)。如果您想要因果解释,那么您应该检查更复杂的假设(严格的外生性),特别是如果您想通过标准统计包(同方差和正态假设)量化因果效应的不确定性。
用例 1:闭嘴并预测
假设您是一名为房地产经纪人工作的数据科学家。您一直在在线收集数据(例如通过网络抓取房屋市场网站),现在您拥有大量关于市场上待售房屋的信息(大小、卧室数量、位置等)。你的老板现在希望你使用这个数据集来构建一个潜在客户生成模型:即一个可以找到预期售价最高的房屋的模型,以便你的公司可以联系业主并宣传其服务。
Image generated by the author with AI model DALL·E mini. Prompt: “an estate agent robot”. Credits: craiyon.com
在这种情况下,您只关心找到具有良好预测能力的模型(特别是擅长预测房屋售价)。那么,如果我们使用线性回归模型,我们需要什么假设呢?因为我们只关心预测能力,所以假设列表减少到一个:
假设 #1 – 随机抽样:数据代表总体(也就是没有选择偏差)
对,就是那样!如果您只想最大化线性模型的预测能力,您只需担心数据的代表性和公正性 [1] .毕竟,您可能会沿着其他模型(参数和非参数)测试线性回归,而且您通常没有要检查其他模型的假设清单——那么您为什么要担心线性模型?
为什么我们需要这个假设?
假设 #1 只不过是对标准 ML 最佳实践之一的改写,著名的“确保您的训练集来自与测试集相同的分布”。因此,这个假设并不是线性回归所独有的。换句话说,没有必要记住假设#1,因为它可能已经是您的通用工具包的一部分。
用例 2:具有可解释性的预测
在实践中,虽然我们很少将预测作为我们唯一的目标。通常我们想看看模型的系数并获得一些见解——如果不是关于世界,至少要对模型进行健全性检查。例如,我们可能希望利用销售团队同事的专业知识来改进我们对房屋数据进行特征工程的方式。为此,我们首先需要了解哪些特征在模型的预测中具有最强的权重(即测量它们的系数的绝对值),以及它们与目标变量(即系数的符号)是正相关还是负相关。简而言之,我们需要了解我们的模型是如何进行预测的。
我们只需要一个假设来确保我们可以合理地检查我们的线性模型:
假设#2——没有完美的多重共线性:自变量之间没有精确的线性关系。
为什么我们需要这个假设?
问题是,如果你的模型表现出完美的多重共线性,那么对于最小化残差的最小二乘和的问题有多个(实际上是无限的)解决方案。虽然这不一定是进行预测的问题,但它使窥视系数变得毫无意义:它们的值与特征和目标之间的实际相关性没有太大关系(与它们的估计器相关的方差是无限大的)。
用例 3:具有因果解释的预测
现在让我们想象一个非常不同的场景。假设您对模型的准确性印象深刻,以至于您决定离开房地产经纪人并开办自己的企业。你心目中的商业模式是非常冒险的:你想实际建造房屋以便以后出售并赚取利润。为了帮助您做到这一点,您希望您的模型告诉您每所房子应该具有哪些特征(大小、房间数量、位置等),以最大限度地提高售价。
就线性回归所需的假设而言,这意味着什么?好吧,这种情况与前两种情况有很大不同。不知不觉中,我们的新用例迫使我们离开相关的世界,将我们带到因果关系的狂野世界。这为我们的线性模型带来了新的假设。
假设我们在拟合线性模型之前只检查了上面的假设 1 和 2。让我们想象一下,我们的拟合模型告诉我们,在所有条件相同的情况下,带游泳池的房子的预测市场价格是迄今为止最大的。我们搓着手,开始建造带游泳池的房子。当房子终于完工时,我们把它放到市场上……我们努力卖掉它。经过数月与少数潜在买家的累人谈判后,我们终于设法以远低于模型预测的市场价格出售了这座房子。尽管如此,该模型在用于潜在客户生成时仍具有强大的预测能力(房地产经纪人,您以前的雇主,仍然通过使用相同的模型赚钱)。这怎么可能?
Image generated by the author with AI model DALL·E mini. Prompt: “multicollinearity and exogeneity”. Credits: craiyon.com
为什么事情会横向发展
问题是,在这里,您尝试做一些与潜在客户非常不同的事情:您通过建造新房子来对世界采取行动,并要求模型预测您的行动会发生什么。对于模型来说,这是一个更加雄心勃勃的问题,因为答案更多地取决于您遗漏的潜在预测因素。
例如,假设带游泳池的房屋通常建在山顶上(这样游泳者可以从高处欣赏美景)。让我们想象一下,它实际上是在山顶上的位置(而不是游泳池的存在)对潜在买家具有吸引力,从而推高了这些房屋的价格。如果包含变量 水池 在您的模型中,但您忘记包含一个 山顶位置 二元变量,则模型将分配一个大的(正)系数 水池 : 发生这种情况是因为 水池 与 山顶位置 , 这反过来对 价格 .变量 水池 有效地“借用”了预测能力 山顶位置 ,模型中不存在的只能通过 水池 :这种效应称为混杂偏差,并且 山顶位置 是混杂变量。
事实是 水池 如果我们使用该模型作为预测工具来进行潜在客户生成,那么仅借用预测能力不是问题:是的,该模型会推荐带游泳池的房屋,但这些房屋无论如何都倾向于建在山顶上,所以它们很可能对买家有吸引力。但是,如果我们采用较大的系数,它确实会成为一个问题 水池 作为建议我们应该建一个游泳池来提高我们的新房子的价格,不管它是否在山顶上:在那种情况下,我们真的想确保它是 水池 真的 导致 更高的市场价格,因为它是我们在现实世界中想要调整的唯一变量。
有什么方法可以从数据中检测出我们的模型存在混杂偏差吗?是的,这就是假设 3 派上用场的地方:
假设#3——严格的外生性——自变量与误差项不相关。
为什么我们需要这个假设?
假设 #3 与混杂问题之间的关系可能不会立即显现出来,但直观的想法是混杂变量的作用使自变量和残差“一起移动”[ 2 ]。
如果我们检查假设#3,我们会意识到变量 水池 实际上与误差项相关。这会告诉我们,其他一些变量混淆了两者之间的关系 水池 和 价格 ,为我们节省了很多钱……
用例 4:具有置信区间的因果预测
让我们回到我们假设的故事:在包含 山顶位置 我们最终得到了一个适合因果解释的模型。在几年的时间里,我们成功地使用该模型建造了几栋房屋,然后以预测的价格出售。我们赚了很多钱,我们很开心。但我们也有科学野心,这促使我们在同行评审的统计期刊上发表我们的模型。
该期刊的审稿人要求我们包括与我们模型的系数相关的置信区间 (CI)。这些很重要,因为让读者了解我们的系数估计值有多不确定(或“嘈杂”)。我们之前没有费心计算 CI,但我们知道有一个简单的方法:如果我们的模型的残差遵循高斯分布,我们就可以计算 CI。这是需要检查线性回归的最后一个假设的时候:
假设#4——同方差性:给定任何特征值,残差具有相同的方差
假设 #5 – 正态假设:残差遵循(相同的)高斯分布,均值为零,标准差为 sigma
为什么我们需要这些假设?
这两个假设都与模型错误的“行为”方式有关,因此它们与 CI 的联系并不奇怪。如果我们满足假设 4. 和 5. 那么我们就可以开始了:我们可以使用任何假设高斯分布的标准统计包来计算 CI。
结论
正如我们所见,并非所有线性回归中的假设都是平等的:您需要哪一个取决于您的用例 [ 3 ] — 特别是,它取决于您想要的可解释性水平以及您是否想要对模型进行因果解释。对于数据科学中的许多用例(以预测为中心),您只需要几个假设(随机抽样,没有完美的多重共线性)。如果您想要因果解释,那么您应该检查更复杂的假设(严格的外生性),特别是如果您想通过标准统计包(同方差和正态假设
话虽如此,如果您真的想进行因果分析,我强烈建议您查看在因果推理背景下开发的所有工具和技术(因果图、结构方程模型、工具变量……)[ 4 ]。这些工具提供了一种比线性回归假设 #3-5 更完整和可靠的方法来估计因果效应,这只是实际交易的近似值。
总而言之,看起来标准的线性回归假设清单要么太重(当我们只需要做出预测时),要么太轻(当我们需要实际的因果解释时)。也许没有洗衣单我们会做得更好……
[1] 这并不意味着其他假设不能提高预测能力——它只是意味着不需要它们。
[2] 有关严格外生性与混杂变量问题之间关系的更深入解释,请参阅 这篇博文 通过吉姆弗罗斯特。
[3] Jeffrey M. Wooldridge 的“介绍计量经济学——一种现代方法”是线性回归及其假设(以及更多)的精彩介绍。
[4] 对于因果推理的伟大而平易近人的入门,我建议“ 为什么的书 ”由朱迪亚珍珠。如果您正在寻找我非常喜欢的较短/博客风格的内容 因果流 通过肯Acquah
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/30266/12321208
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/288960.html