雷锋网 AI 科技评论按:算法,它被用来决定每天最优的家庭医疗时长,还被用来鉴定儿童是否受到威胁以便儿童保护机构进行调查,也有人把它用来评估教师是否有资格继续执教,在决定哪些人可以领生活补助的问题上也用到了它。总的来说,算法对我们的生活中的有着各种潜移默化的影响。本文对算法使用问题提出了自己的看法,原文发在 EFF 上,本文是对博客的翻译,雷锋网(公众号:雷锋网) AI 科技评论编译如下。
通常使用算法做决策的出发点是好的,但是照样会导致出人意料的后果。一些组织在大肆宣传使用各种算法时,经常避开一个重要的问题:使用这些算法会削弱还是增强系统性不公平?
分析这个问题需要综合考虑很多因素,我觉得一个机构斟酌是否采用算法决策时必须要考虑一下几个问题。
一、算法是否会对生活产生负面影响
机构在采用基于算法的决策系统前必须要评估算法对生活可能产生的影响。也就是说机构必须清楚系统会影响到哪些人,以及以哪种形式影响。机构还应该对系统的不公平性有明确的认知。人们的初衷是使用算法让生活变得更美好,但是受到系统原生偏见,决策者对统计数据的不了解及对机器过渡信任等影响,算法很难得到完美的结果。考虑到容易导致不公平结果的内在风险,以及这些结果可能对生活产生的负面影响,我们在没有足够的安全保证前不应该轻易使用算法决策。
上文的错误实际上已经有实例了,在印第安纳州,由于算法将不完整的福利申请文书算作是失败申请,直接导致了三年内有 100 万人无法获得食品券,医保福利和现金福利。其中有一个人叫 Omega Young,她由于无法负担医疗费用于 2009 年 3 月 1 日去世。然而她去世后一天,她赢得纠错申诉,她所有的福利都恢复了。这个例子充分显示了印第安纳州的保障措施和上诉程序有严重的不足和漏洞。实际上决定一个人能否继续领医保是一个非常难裁决却又十分重要的事,对此不禁让人质疑让算法决定这么重要的事是否妥当?
弗吉尼亚的 Eubanks 在 Automating Inequality 这本书里探讨过印第安纳州的问题。她这本书的内容就是技术如何影响公民、人权、经济公平。书中她解释道算法可以让我们与社会难题产生“情感距离”,因为针对这些难题的决策我们都让机器帮我们做了。但我们必须意识到现实中有一些决定机器无法帮到我们,我们也不应该把这些问题抛给机器。对于这些问题机器无能为力,毕竟数学没法解决根深蒂固的社会问题,如果强行使用算法去解决可能只会加剧系统原生不公。
二、可用数据是否能带来好结果?
算法输出依赖数据输入,所以只有正确的数据输入才能得到预期的输出。所以机构在决定采用基于算法的决策系统时必须要要深入研究他们要解决的问题,并扪心自问他们是否有解决该问题所需的数据。
以宾夕法尼亚州阿勒格尼县的儿童,青年和家庭(CYF)部门为例。该部门正在使用一种算法,该算法根据所有递交的可能涉及虐童的事件报告对儿童进行受威胁程度打分,
并以此协助办案人员进行调查,这也是 Eubanks 书里的另一个案例。该算法的目标很平常:帮助社会服务机构最高效地利用有限的资源来帮助他们服务的社区。该县的目标是预测哪些儿童可能受害,也就是「输出结果」,但是却缺乏足够的虐童事件样本来建立真正有统计学意义的模型。于是他们采用 CYF 的热线数据和两年内的寄养数据作为虐童数据的替代数据。所以算法会输出某个儿童上 CYF 热线和被寄养的可能性,并以此作为该儿童的受威胁程度分数。
这种做法有什么问题呢?那就是替代变量质量不佳。首先,这些数据主观性很强。Eubanks 解释说,热线数据包含了一种隐藏的偏见:「举报者们报告黑人和混血儿家庭暴力的频率是他们报告的白人家庭的 3.5 倍」有时甚至是愤怒的邻居,房东,或者家庭成员故意误报来惩罚或报复邻居或家人,正如 Eubanks 在 Automating Inequality 中所写的那样:「预测模型建模需要清晰明确的步骤,并且有大量相关数据才能正确运行。」阿勒格尼县显然没有这些条件,然而 CYF 依旧推进使用这项算法。
那么最后结果如何?该算法精度实在有限。Eubanks 了解到,在 2016 年这一年就有 15,139 次虐童报告,该算法则导致了 3,633 次不正确的预测。这等于 CYF 无端侵入和监视了数千个贫穷少数族裔家庭的生活。
三、算法公平?
缺乏足够的数据会加剧算法固有的不公平。例如,阿勒格尼县没有当地所有家庭的数据,他们的数据仅从使用公共资源的低收入家庭收集。这导致了算法只针对低收入家庭进行审查,并且可能针对这些家庭形成反馈循环,这使得进入系统的家庭难以完全摆脱监控。这种做法实在有违公允,阿勒格尼县的一些家庭肯定会感到不公。
比如算法对不同群体是一视同仁还是区别对待?是否可以从公正、公众安全、平等、优化资源配置等角度去优化系统。还有就是那些可能受到影响的社区居民是否可以有机会参与政策的制定,包括算法如何设计,怎么使用,怎么定义公平等。最后就是在算法产生不利影响前(比如上文中的 Omega Young),那些将遭受不利影响的居民有没有有效又便捷的途径去复审以消除这种影响。
组织应该将自己所秉持的公平原则对公众保持透明,并应该让各路利益相关者特别是那些直接受到影响的居民参与到公平规则的制定中。那些未通过检验的算法绝不能被采用,而对于已经采用的算法决策系统,应该配有一个后续的审查程序来评估结果并纠正任何系统偏见所造成的影响。
四、人类如何应用成果
还有一个组织必须考虑的问题是如何应用算法成果。在阿勒格尼县,由算法评出的「受威胁程度评分」是作为影响因素之一提供给调查人员参考的,调查人员以此来决定目标家庭,但在实践中,Eubanks 发现该算法更像是在训练数据输入者。曾几何时,调查者的个人判断是可以消除隐藏偏见的。但是当这些调查者将判断的权利完全交予算法,实际上他们发起了守望者的角色,这也使得整个决策系统中阶级分化和种族歧视的情况更加严重。
算法决策系统因为不会像人类那样主观臆断而备受吹捧。这种过分相信机器客观可信赖的趋势导致了「自动化歧视」。人们在做决定的时候必然存在着认知偏差,而自动化歧视又使决策难度更上一层。人类知道自己存在各种偏见,即人类知错能改,但是当算法结果成为主导决定的唯一因素时,机构必须构建另外一个矫正自动化偏见的系统并保证其可用。这个系统要求算法不仅要给出某种分数,更要描述评价过程,另一方面人类决策者也必须有基本的统计学知识还要对自己使用的特定算法的局限性和缺点了然于胸。
在某些情况下,只要算法存在误导决策者的可能性,那么该算法的可用性就要重新考虑。比如,计算犯人的再犯率来辅助判刑。具体实例如,在威斯康辛州,法院使用 COMPAS 算法来预测被告的再犯率,然后由法官作出最后判决。但是我们必须清楚那就是人类本能的相信机器,所以认为法官的「固有的综合评价能力」不会受算法的过度影响实属幼稚。肯塔基州一项关于风险评估算法对法官影响的研究发现,算法对于法官决策的影响是很短暂的,这段时间过后法官就会回到他们习惯的决策状态。研究发现这种影响也是因人而异,但是哪怕只影响一个法官也可能导致某人失去自由。由于判决决定关系重大,这种事先预测再犯率的算法又存在严重问题(该系统基本上将黑人妖魔化,却给白人罪犯益处),所以继续使用该算法是不人道,不道德的。
五、人们与系统是相互影响的吗?
最后,算法的存在是为了更好的服务社区,所以绝不能把节约时间或资源放在第一位,应该永远是社区利益至上。这要求数据科学家必须考虑社区的惶恐和担忧,然而现实是这些科学家基本没接触过应用算法的社区。正如 Weapons of Math Destruction 的作者Cathy O’Neil 今年早些时候在 Wired 上发表的言论:「算法的构建者们和被算法影响的人们之间完全没有联系」。只要这种情况持续下去,哪怕最好的系统也注定会产生意料之外的严重副作用。
在部署算法系统之前,数据科学家,执行组织,社区群众之间的隔离必须被打破。O’Neil 建议数据科学家事先了解所有受影响的利益相关者的关注点,然后构建一个「道德矩阵」。这个矩阵可以帮助阐明利益相关者之间争论的意义,动机,考虑因素等,也可以让数据科学家放手去搞影响更大的算法(依旧考虑各路人员的利益)。受影响的社区也应该有机会去评估,纠正和影响这些系统。
后记
正如卫报指出的那样:「构建坏的 AI 系统可能并不需要一个坏的动机」,出发点是好的也会导致意外的后果,任何基于算法的决策系统也是如此。即使是最具善意的系统也会造成严重的危害,特别是一个组织没有事先考虑采用算法决策是否妥当以及合乎道德,然后出了事还一步不退的情况下。这些问题是应该是人们思考的起点,解决这些问题也不一定能保证公平的结果,但它们是所有组织在采用基于算法的决策系统之前应该扪心自问的问题。
以上就是雷锋网AI科技评论对博客的全部翻译。算法对我们的生活影响越来越大,算法、机器学习是否被滥用着实值得思考。
via EFF,雷锋网AI科技评论编译
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/130103.html