导读 | 该技术可实现一种可验证、保护隐私、与真实世界相匹配的合成孪生方法,在保护数据安全的前提下,加快数据利用和分析。 |
美国空军创新中心AFWERX近日选择了Diveplane公司的一项可创建敏感数据数字孪生的技术,可实现一种可验证、保护隐私、与真实世界相匹配的合成孪生方法,在保护数据安全的前提下,加快数据利用和分析。
美国空军创新中心AFWERX近日选择了一项可创建敏感数据数字孪生的技术,作为其未来基地挑战赛(Base of the Future Challenge)项目的顶层解决方案,该技术被称为GEMINAI。
GEMINAI由“危险软件”(Hazardous Software)公司下属Diveplane子公司开发,它创造了一种可验证、保护隐私、与真实世界相匹配的合成孪生(synthetic twin)方法,用户选择的数据集可以在不干扰或损害原始数据的情况下被使用和分析。合成的等效数据集具有与原始数据相同的统计特性,但没有任何隐私、敏感或涉密信息。
Diveplane公司的业务开发总监Newton Grant表示,生成合成数据的概念是指,根据真实数据集的统计分布和数学属性,创建统计上等效、逼真但并非真实的数据集。
当某个军种或民用机构希望与潜在的研究伙伴共享数据,但由于信息安全方面的考虑而不想共享实际数据时,他们可以改为共享数字孪生,用于研究、开发和建模。GEMINAI能够创建统计上等效的数据点(但不包括任何潜在的涉密信息)。它可以保留数据点的主要属性,而不必牺牲任何可能与特定收集时间或收集地点相关的内容。
Grant称,空军可以利用GEMINAI这样的产品创建合成数据,然后与私营企业分享,从而开发具体的解决方案或测试他们正在制造的某个原型机。这对空军来说尤为重要,因为空军经常处理敏感和涉密数据,同时也可能希望与尚未具备相关资质的供应商合作。获得资质需要时间,因此延缓了新解决方案的开发。共享逼真的合成数据消除了这一障碍。
比如,空军希望与研究人员合作,利用一个包含飞行员私人医疗信息的数据库开发新冠病毒(COVID-19)治疗模型,那么它可以生成两份记录,而不是共享实际的医疗文件。合成记录会有相同的统计特性,作为真正病人的数据,并且在预测建模时一样排得上用场。由于合成的病人数据不能追溯,因此无法确定是哪个真实存在的个人,故该系统符合健康保险流通与责任法案(HIPAA)和其他隐私法规。
即使原始数据的统计分布与单个数据点都涉密,也可以应用GEMINAI。在这种情况下,用户可以调整合成数据的生成过程,以改变合成数据的等效分布,这样合成数据就不会与原始数据有相同的分布了。
处理结构化数据是GEMINAI的主要应用,它必须运行在云环境中或气隙(air-gapped,译者注:指不以任何方式与互联网连接)服务器上。GEMINAI的主要用户是使用Python客户机的数据科学家,但Diveplane公司正计划针对不熟悉编程语言的用户推出图形用户界面。
下一步,Diveplane公司希望能够实现手动功能的自动化,并进一步扩大该系统适用范围。
AFWERX挑战赛
在AFWERX挑战赛中,该公司的解决方案使用了与SES-10火箭遥测数据等效的合成数据。解决方案强调了该技术背后的数学原理,并展示了如何通过开放的应用程序设计接口与其他系统集成,这些接口可以用50种语言生成。
AFWERX未来基地挑战赛项目由6个同时开展、围绕不同主题的挑战赛组成。根据AFWERX的说法,这一理念着眼于“创造一种创新文化,让人们可以在基层自由分享想法,并加快技术采用的速度”。有370支队伍参加了AFWERX举办的“融合2020”(Fusion 2020)活动,它们是从创纪录的1500多支参赛队伍中挑选出来的。在整个活动中,各个团队向美国空军相关部门的主题专家小组介绍了他们的解决方案。在8月31日的一周内,前92名候选人被邀请与空军进行进一步接触,有望获得合同。
由于“危险软件”公司在挑战赛中获胜,它已经加入了空军的一项活动,裁判们认为,该活动可能从合成数据生成中获益最多。GEMINAI还被选为AFWERX的“交战太空(EngageSpace)”项目的一部分,这是一个探索太空域可能性的挑战赛。
原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/135856.html