谷歌和OpenAI开发“学生”算法：AI如何在不接触数据的情况下学习？

跟所有软件一样，人工智能也避免不了遭受黑客入侵的命运。近几个月，安全研究员已经向人们表明，机器学习算法可以被逆向工程化，而且会像个人照片和健康数据一样暴露用户数据。

所以，为了保护这些信息，我们该怎么做呢？

近日，一份来自 OpenAI 和谷歌的调查结果显示，他们可以让人工智能在不利用个人数据的前提下正常工作。

OpenAI 的研究人员 Ian Goodfellow 拿这种系统与医学院的学校教育系统做对比。

“医生这个行当干了几十年之后，能积累到非常有用的医学案例，但同时也会知道一些比较私密的个人病史，” Goodfellow 说，“这些医生来到医学院教书时，无需把那些私密的个人病史透露给学生，就能让他们的医术有所长进。”

这个即将推出的学生算法能通过学习上百万次仿真决策，不借教师算法赖以形成的基础性信息而模仿老师们做决策的过程。学生算法还通过非敏感的公共数据进行学习以调和结果，并进一步使教师的数据集变得更大众化。OpenAI 和谷歌这次的成果以先前的研究为基础：教会一个学生算法同时使用多个教师算法，结果是，学生算法能运行得更快，结果也更准确。同时，这两家公司也向其他人公开了学生算法的编码程序以让其适应各自系统。

但让算法进行反向工程更困难的一点是，学生算法的老师可不止一个。在测试中，研究员用 250 个教师来训练一个学生算法，这意味着学生不会依赖任何特殊敏感数据，而是会综合所有的数据信息。甚至当该人工智能被进行反向工程操作时，黑客也无法从中得到任何信息。

Goodfellow 拿医学院来解释这个新型算法非常恰当。因为医学院有大量的信息可以使用，所以在研发医疗人工智能的时候，这种系统会相当受益，同时，它又能保护个人医疗信息不外泄。一个算法能够从每一家医院的数据（像放射性扫描结果或病人信息）中进行学习，而一个学生人工智能系统可以自动从医院网络中进行学习。

像谷歌等公司也能用这种技术从用户照片中进行学习，当然，也不用看用户的照片。但是这种人工智能仅限于从用户账号中的图片进行学习。这种技术可以把每个用户的人工智能当做老师，为谷歌照片软件训练更精准的，能自动识别人脸和物体的学生。

这种方法能使大数据中的个体信息受到保护，它属于差别隐私的一种。比如，在医院中一名的患者数据就是差别隐私较弱的一种形式。

另外，苹果 iOS 10 也使用了差别隐私技术，使系统在不影响个人隐私的前提下，帮助发现大批量用户的使用模式。为了掩盖个人身份，差别隐私会像个人使用模式的小样本中加入数学噪音。随着更多的用户呈现出相同的模式，总体模式就会开始显现，这可以用来增强用户体验。

“差别隐私引起了一个悖论，即算法不会从个体中直接学习，但是却能从一大批人群当中学到最有用的信息，”微软研究院 Cynthia Dwork 和宾夕法尼亚大学 Aaron Roth 在书中写道。

一个算法越是会模仿它的老师，作出的决策就越有可能和老师的数据集不相符。这是差别隐私的运行准则。

“该领域内的所有研究都在探索隐私和实用性这两者之间的平衡点。因为获取更多隐私代表着使的人就会减少，” 机器学习安全研究员 Thomas Ristenpart 在一封给 Quartz 的电子邮件中说道。

via：qz.com

谷歌和OpenAI开发“学生”算法：AI如何在不接触数据的情况下学习？

相关推荐

发表回复