滴滴在美“低调”上市之后,国家网信办的安全审查接踵而至,数据主权和安全的决心不言而喻。长久以来,互联网平台和用户之间似乎达成某种共识:享受免费服务,就应该提供数据。而这种共识,也带来信息泄露的风险。
去年,关于数据隐私保护的监管进程像被按下了快进键。多项法案陆续出台,要求企业在数据应用过程中使用脱敏、加密等技术提高安全级。
然而,有人担心“严令”会对企业经营产生不可逆的影响。工信部电子五所高级工程师、区块链创新团队负责人相里朋表示,“数据的核心价值是流通,只有在流通的情况下,数据价值才会被放大。”
这种情况下,如何实现只输出数据结果而不输出数据本身?抛开企业的“自我道德约束”,隐私计算成为一个技术“更优解”,相关概念的产品呈现爆发式的增长态势。
与此同时,7月13日,Gartner发布了隐私计算的技术成熟度曲线-2021版本, 而今年加入"技术成熟度曲线"的是联邦学习和主权云。
Gartner指出,到2024年,隐私驱动的数据保护和合规技术支出将在全球突破150亿美元以上。本文将会围绕隐私计算江湖的演变,探讨人工智能时代下的数据之道。
联邦学习:隐私计算江湖中的后起之秀
去年,Gartner发布2021年需要深挖的9项重要战略科技趋势,其中隐私增强计算成为企业机构需要深挖的9项重要战略科技趋势之一。
但是,隐私计算并不是一个“新鲜事物”,其历史最早可以追溯到1979年的秘密分享,当时由Shamir和Blakley提出。1982年和1986年,国内姚期智院士提出了安全多方计算和混淆电路。
进入21世纪,围绕隐私计算的理论几乎是以每三年为一个周期进行更新。
因此,隐私计算其实是一堆“数据可用不可见”的技术集合。 在腾讯发表的《隐私计算白皮书2021》中,给隐私计算下了一个定义:
隐私计算(Privacy Computing)是一种由两个或多个参与方联合计算的技术和系统,参与方在不泄露各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。
从技术机制来看,隐私计算主要分为三大技术路线,即安全多方计算(密码学)、联邦学习及可信计算环境。
行业里,有人喜欢将隐私计算以“江湖门派”的形式进行分类,便于理解:
安全多方计算(MPC)是少林派,历史悠久,功力深厚,最早可以追溯到上世纪80年代,有秘密共享、传输混淆电路等一些非常强大的独门武器。
华山派,可信计算环境(TEE)。通过硬件技术来对数据进行隔离保护,以Intel等厂商为代表,国内包括蚂蚁金服、翼方健数等公司将之集成到自己的隐私计算平台。
联邦学习是隐私计算的后起之秀,就像武当派张三丰师出少林一样,联邦学习结合密码学和分布式计算,实现了多方协作的机器学习,在人工智能领域开辟了新天地。
除此之外,还有像盲签名、隐私信息检索、零知识证明等这些相对更小的密码学协议分支,同样非常有用,好比泰山派、峨眉派,它们共同组成了丰富多彩的隐私计算江湖。
尽管流派众多,但是隐私计算真正成为“现象级”话题,还是在近几年。
隐私计算的发展驱动力,很大一部分来自外部的监管环境(因为2018年3月的数据滥用丑闻,Facebook 被罚了50亿美元)。各国政府越发趋严的监管力度,从某种程度推动了隐私计算的市场扩张。
而在大数据、人工智能越发深入行业的时代大背景下,如何在满足数据隐私、安全和监管的前提下,设计一个机器学习框架,让人工智能更高效、更准确的共同使用各方数据成为了研究的核心,联邦学习应运而生。
同盾科技人工智能研究院院长李晓林教授就坦言,“TEE和MPC天然地、不是特别适合目前AI的场景需求。而联邦学习天然适合分布式学习,因此优势比较大。”
(推荐阅读:《同盾AI研究院深度学习首席专家李宏宇:解构知识联邦,开创数据“可用不可见”新局面》)
微众银行首席AI官杨强教授举例说到,MPC一直保留在学术界,它的理论很美,设想确实是从根本解决问题,但是它能解决的是比较底层的精确计算和数据库查询。一旦涉及到模型层面,使用MPC的速度相比不用最少要慢上一万倍。
这是因为,TEE和MPC都是面向通用计算模式,但联邦学习是专门针对机器学习模型训练这个场景设计优化。机器学习训练分布式化后天然具备隐私保护的特点,可以比较容易地做到“原始数据不动,模型动”。
但是,杨强教授也补充道,机器学习本身是复杂模型的近似计算,虽然联邦学习已经进入非常实用的阶段。但是,也要明确和其他方法的区别——它是用来做近似计算。
“对于隐私计算行业,我们期待有一个囊括全盘的载体,可以理解为App Store,大家可以根据不同的需求去选择用TEE/MPC/联邦学习,或者是三种方法的混合。”
2018年,在杨强教授担任首席AI官的情况下,微众银行正式开展了联邦学习研究,内部投入百余人。到了2020年,微众AI团队透露已申请100+项相关专利,牵头推进IEEE联邦学习国际标准与联邦学习国家标准制定。
(推荐阅读:《微众银行首席AI官杨强:万字图文详谈联邦学习最前沿》)
此后,各大厂商也积极布局联邦学习,如平安的联邦智能、蚂蚁金服的共享智能、同盾科技与知识联邦、京东数科与异步联邦学习、百度与联邦深度学习PaddleFL。
此外,面向金融行业的富数科技、星云Clustar,面向医疗行业的医渡云、翼方健数等厂商的进入,让联邦学习成为当下隐私计算最重要的分支。
隐私计算是否会出现“平台”孤岛?
从去年以来,隐私计算的势头大火。
星云Clustar副总裁许振主管星云隐私计算技术的场景落地。他向雷锋网表示,今年以来,一些银行隐私计算技术底座的一期项目投入多则可以达到数百万。
与之对应的,2019年到2020年初时,隐私计算赛道只有几家竞争者。“这本来是很小众的市场,但今年入局的厂商已飙升到上百家。”
当下来看,隐私计算的发展已渐入佳境,但是,一个行业的“拓荒时代”势必会带来一些新的命题。对于隐私计算而言,缺乏统一的标准,各平台的技术实现也不相同,不同技术平台所托管的数据在实际应用中无法跨平台交互,“数据孤岛”问题逐渐演化成了“平台孤岛”。
面对这个颇有些“难解”的问题,平安蜂巢平台负责人王健宗博士认为,当前亟需制定联邦学习平台相关标准,建立隐私计算的框架规范,对联邦学习平台的参与角色、网络模型、认证要求、管控要求、计算要求等进行约定。
“我们愿意联合其他平台与技术方共同定义行业的标准化接口,推出隐私计算的计算协议、建模协议、传输协议,促进各个隐私计算平台间真正互联互通。”
与此同时,希望更多研究机构与企业加入隐私计算前沿技术的研发中心,例如,如何利用同态加密进行比较计算,以及如何兼容其它加密算法等实际问题。
(推荐阅读:《平安科技副总工程师王健宗:联邦智能的突围与应用之道》)
富数科技合伙人、解决方案总监黄奉孝也表示,互联互通是国内隐私计算发展必然会面对的挑战,异构平台在技术互通协议栈的统一是能不能互通的关键。但是,厂商各自的商业考量也许是阻碍异构平台之间互联互通的根结。
“我很喜欢举在线会议软件的例子,会出现只安装腾讯会议就可以和钉钉、zoom同台聊天的那一天吗?我不知道。”
事实上,为了更好地制定和验证联邦学习行业标准,富数科技已经和微众银行等机构在北京金融科技产业联盟的指导下进行分阶段的实践。
黄奉孝认为,异构平台的统一互联互通协议需要更多的厂商来参与,特别是对软件内核具有自主可控能力的厂商。另外,作为标准制定单位需要加快推进落实,具体的协议可以考虑从数据资源、从算法协议等等维度,循序渐进。
(推荐阅读:《富数科技安全计算首席专家卞阳:隐私计算江湖与联邦学习的「上帝视角」》)
医渡云的首席架构师蒋锦鹏也表示,解决平台孤岛的问题,首先技术标准要先行。从2018年开始,国家大数据技术标准推进委员会TC-601在牵头相关单位共同编写隐私计算互联互通标准,医渡云也参与其中。
今年3月,北京市政府主导成立了北京国际大数据交易所,将采用隐私计算、区块链等技术作为数据流通的底层技术保障。
此外,人民银行主导了《联邦学习技术金融应用规范-技术要求》、《联邦学习技术金融应用规范-互联互通》、《联邦学习技术白皮书》、《多方安全计算金融应用现状及实施指引》、《金融行业隐私计算技术与应用研究》等行业标准的起草和编写。
这些对于隐私计算和联邦学习来说,至关重要。
联邦学习的根本属性——让所有人都能参与合作
除了国家政策的顶层设计之外,行业的生态仍然需要各家厂商积极搭建。
下游业主,也就是数据使用方使用联邦学习的唯一目的就是进行数据融合、数据合规。技术平台隐私化后,上游数据进来后涉及到一个对接的问题。因此,在星云Clustar副总裁许振看来,这个过程是一个“市场占有率”说话的问题,谁的技术占有率更高、互联互通能力更高,谁将拥有更多的话语权。
“我们可以看到,FATE的占有率比较高,闭源软件的占有率较低,推进起来也比较麻烦。而且,从甲方的反馈来看,对FATE的认可也是相当高的。”
许振所说的FATE是指微众银行在2019年推出的工业级开源框架。
FATE整体架构
杨强教授曾表示,“联邦学习像一个操作系统,你自己玩是不行的,它的特点是多方合作,只有多方都认可,才有机会做起来。”
并且,杨强教授也表明了微众联邦学习开源的逻辑:既然是多方协作的框架,那么就必须说明它的安全性与保密性,并且各方都能快速对其进行验证,这是闭源软件办不到的。
为了连接不同组织机构间的数据,使数据得到更大的应用价值,2019年2月,微众银行AI部门开源了联邦学习框架FATE,这是首个开源的联邦学习工业级框架,并于2019年6月捐献给Linux基金会,同时成立FATE TSC对FATE社区进行开源治理。
目前,FATE开源社区已汇聚了800多家企业、300多所高校等科研机构的开发者,是国内最大的联邦学习开源社区。
当然,除了FATE以外,目前还有谷歌开源的TensorFlow Federated,和百度开源的PaddleFL。
在雷锋网(公众号:雷锋网)与一些开发者的调研中,能够明显感受到FATE目前的领先身位。
融数联智的开源架构总监花京华表示,目前用FATE较多,算法组件在功能层面覆盖大部分场景,扩展性也很好,业界认可度高,不过在性能上和资源占用上还可以进行更多优化。相比之下,PaddleFL框架比较重,要跑起来更困难。
花京华的开源架构团队主要是纵向联邦学习场景,Tensorflow Federated用的不多,更多是参考和学习。他表示,目前也在准备用Rosetta来实现MPC方案的联邦学习,这个框架非常轻量,易用性高。
在花京华看来,自己对联邦学习框架最核心的诉求有三点:一、稳定(框架设计稳定、算法性能和工程性能稳定);二、灵活易用,能在较少配置情况下很快在本机将demo跑起来,另外可以较好的扩展并与其他框架兼容;三,算法丰富度。
上海电信理想的李学军没有使用过谷歌开源的TensorFlow Federated,和百度开源的PaddleFL,他对FATE框架的最大诉求就是进一步提升性能。
此外,有一些较为常见的测试FATE有相关的整理文档,但使用者对此了解较少。这也是未来FATE需要进一步提升的点。
当然,开源的联邦学习不会“一劳永逸”。
首先,创新工场南京人工智能研究院执行院长冯霁曾向雷锋网表示,在联邦学习的分布式场景下,安全的问题更加需要研究,因为攻击者攻击的可能更多。
“比如攻击者所了解的先验知识会更多,要么是知道某一方的数据,要么知道某一方的模型。不需要知道所有方的数据和模型,攻击者就能做出攻击。
他补充到,“安全防御,是一件非常困难的事情。做一个坏人很容易,做好人却很难。”
(推荐阅读:《创新工场南京人工智能研究院执行院长冯霁:联邦学习中的安全问题》)
其次,由于分布式参与节点计算能力不一致、网络连接状态不稳定、数据通信非独立分布等因素,通信效率将成为联邦学习应用的瓶颈之一。
这些是联邦学习这个生态里面,每一个建设者都难以回避的问题。
不过,亚当·斯密曾经在《国富论》的开头强调过,分工是促进劳动生产率提高的最重要动力。作为一种协作形式,“开源”显然为斯密的这一论断提供了最好的证据,也是生态构建的一条必经之路。
联邦学习:场景落地万花筒
一个客观事实是,以联邦学习为代表的隐私计算在金融领域的应用更为迅速。
原因在于,金融行业是数据密集型行业,但同时,金融行业数据也需要其他行业数据,例如互联网行业数据,来补充完善自身的客户数据画像。
其次,金融行业的数字化程度较高,硬件基础设施能力强。可以通过利用GPU等计算芯片提高算力,同时结合5G技术、边缘计算来加速各节点的通信效率。
通过结合金融行业的硬件资源优势与算子层的优化,由平安集团联营公司金融壹账通与旗下平安科技联合研发的蜂巢平台达到了提速50%的效果,同时在反洗钱等场景,平安的蜂巢平台落地了自研的联邦图算法。“相对于其他仍依赖于传统数据存储的行业,在金融行业首先应用联邦学习是较好的选择。”
目前,金融壹账通实现了联邦学习在一些场景的落地使用,包括构建金融行业联邦图,应用于多方联合反洗钱与融资担保关系链查询等场景。金融壹账通还将联邦学习应用于监管科技领域,解决了分业监管模式下金融数据的隐私性和孤立性问题,充分激活数据价值。
联邦图在金融场景的应用,来源:金融壹账通
星云Clustar副总裁许振也认为,“银行是一个非常大的存量市场,这个存量市场要维系下去,联邦学习是它唯一的方案。”
(推荐阅读:《星云Clustar首席科学家胡水海:GPU在联邦机器学习中的探索》)
而在场景应用实践上,联邦学习在金融范畴的运营会更加广泛,比如联合精准营销、信贷联合风控、贷后资金监控、联合反欺诈、联合反电信诈骗、联合反洗钱、供应链金融等等,似乎联邦学习可以解决大部分涉及到跨机构数据协作的金融业务。
从微众银行的进度来看,目前联邦学习主要应用在风控和营销两大场景。微众银行表示,风控场景的落地(包括反欺诈)会更多,超过80%。
除此之外,杨强教授透露,微众银行可以帮客户用联邦学习降低贷款业务的坏账率。 此外,在交叉营销(Cross Sale)、挖掘已有客户的新的购买力、以人脸识别为特征的智慧城市建设、无人车的场景模拟等方面都有不错的成果。
金融行业没有太多的外部用户特征,而另一个“以数据为生命”的行业则与之相反。每一家医院都有针对一个用户较为全面的数据, 但是每一家医院的人群、专科不一样。因此,医院之间的数据流通更像是一种横向联邦。
杨强教授表示,“市面上已经有一些大数据厂商开始利用联邦学习进行医疗多中心的联合建模,这是非常好的趋势。”
医渡云首席架构师蒋锦鹏就表示,现在医渡云推出了基于安全计算的多中心科研平台产品。在产品部署实施方面比较容易,不需要客户做大量配合工作。
主要的前期准备工作在于,需要和客户一起明确用联邦学习做什么,建一个什么疾病领域的平台,邀请哪些医院共同参与,未来跑哪些业务。另一个主要前期工作是数据治理。
“我们知道机器学习建模需要高质量、标准化的数据,而医院原始数据往往非常分散、非结构化、非标准化,需要经过专业地加工处理后才有可能产出有意义高价值的成果,否则只能garbage-in garbage-out (垃圾进,垃圾出)。“
当然,在实践中,这些厂商的一线工作者们也发现了“理想”与“现实”之间的界限。
比如,医院之间的互联网络条件一般较差,影响了多方安全计算的性能,如何对通信和性能进行优化。另外,医院之间对研究的贡献如何客观度量。这些方面,医渡云正在和清华大学等高校开展合作研究优化。
平安蜂巢平台在落地联邦学习的过程中发现了两个问题:第一个是“数据确权”与数据价值评估的问题。具体来说,就是如何在数据不可见的情况下,进行数据价值判断与商业定价。
同时,隐私计算的数据定价也要与根据查询数据条数计费的传统模式有所区分。作为数据需求方的业务客户,更加希望可以通过隐私计算技术应用降低数据购买成本,从而为业务带来新的亮点与价值。
因此,隐私计算需要对传统的数据购买进行商业逻辑变革,从根本上优化数据合作的商业定价,激活金融数据的潜在价值。
蜂巢平台负责人认为,“维持与传统形式相同的数据定价模式,将不利于隐私计算的行业技术发展。”
另一个挑战是密码学在隐私计算实践中的应用,在实际应用中会有很大性能挑战。因此,需要更多的高校和研究机构投入密码学的研发当中,共同推进隐私计算行业的技术应用与落地。
从“Intel inside”到“隐私计算 inside”
与传统的土地、劳动、技术等一样,数据已是生产要素之一,成为一种新型社会生产力,越来越多的业务场景需要多方数据的流通和共享。在《国家数据安全法》颁布后,联邦学习、隐私计算更加凸显价值。
今年,针对隐私计算的招标采购已经普遍开始,隐私计算已经到了开始真正尝试规模化应用的阶段。对于有一定技术产品实力的企业来说,技术的竞争天花板只会越来越小,行业的垂直细分应用会越来越大。
数据中心与数据中心的联邦学习会成为数据开放流通的主流模式,设备之间的横向联邦学习,会随着手机智能设备、无人驾驶、工业设备等场景开始遍地开花。
在杨强教授看来,联邦学习不是一套简单的算法,而是一个大数据生态的操作系统。从操作系统的角度来看,首先要安全,其次是效率,第三是参与者生态。这些都还没有建立起来,所以行业远没到成熟的地步。
“联邦学习、隐私计算没有过热,这里面可能会出现下一个Windows。未来,我也期待有更多的厂商使用隐私计算,甚至像每台电脑上的‘Intel Inside’一样,在自己的产品上打上‘隐私计算 Inside’,隐私计算将成为一种商业转化的核心竞争力。我期待,这将会是一个范式(paradigm)的改变。”
黄奉孝的一句话,让人印象深刻:等隐私计算技术发展到向今天的hadoop技术生态的成熟度后,我猜测“安全即业务”会到来。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/91164.html