2020年9月5日,由雷锋网 & AI掘金志主办的「第三届中国人工智能安防峰会」在杭州正式召开。
本届峰会以「洗牌结束,格局重构」为主题,会上代表未来新十年的15家企业,为现场1000余位听众和线上几十万观众,分享迎接安防新十年的经营理念与技术应用方法论。
在大会上,平安科技副总工程师、联邦学习技术部总经理王健宗带来了精彩演讲。
王健宗指出,目前人工智能在移动互联网、云计算、大数据、IoT、5G等新技术的驱动下得以迅猛发展, 不过在AI技术落地时总是有所欠缺,即人工智能通用算法在本地化部署过程中所面临的数据困境,而这一块恰恰是相关行业或企业所缺乏的。
王健宗认为,其数据困境主要是三点:数据孤岛、法律法规监管日趋严格,以及传统AI技术模式下的限制。
联邦智能正是这一困境的破局之道,它是以联邦学习为龙头,同时涵盖联邦数据部落、联邦推理、联邦激励机制,共由四大部分组成。面对目前日益苛刻的数据安全隐私的问题,通过构建联邦学习的技术内核,建立联邦数据部落,实现具备隐私保护的联邦推理,并以联邦激励机制为纽带形成一个完整的AI生态格局,从而打破数据壁垒,使人工智能发展迈向新阶段。
其中,联邦学习是隐私保护下的分布式机器学习技术,以及“数据孤岛问题”的解决方案。联邦数据部落,在确保数据安全及用户隐私的前提下,建立基于联邦智能的大数据部落生态,充分发挥各行业参与方的数据价值,推动垂直领域案例落地。
联邦推理,在一个隐私与安全的链路过程中,发挥着引擎模型的联邦推理作用。联邦激励机制,它的核心是一个遵循基本准则的闭环学习机制,通过联合建模协议达成、贡献度评估、激励及资金划定等环节,吸引外部企业参与,加入联邦智能生态。
平安的蜂巢联邦智能平台。在整个平台中,蜂巢依托平安集团这一综合性集团背景,能够提供智慧金融、智慧城市、智慧医疗商用级的一站式解决方案,希望能够以此激活数据价值,这也是整个平台的使命。蜂巢平台的目标是跨企业、跨数据、跨领域,助力整个大数据AI生态。此外,它在营销、获客、定价、风控、智慧城市等等方面推出了相关的解决方案。
最后,王健宗总结道,联邦智能作为枢纽,将会为智慧城市的未来提供更多新的机会。同时,随着公民隐私安全意识的不断加深,它将更好地为公众带来高品质的个性化服务,并在当前新基建的背景下,立足于数据,依托联邦智能生态,加速精细化服务时代的到来,这也是联邦智能的机会。
以下是王健宗演讲全文,雷锋网作了不改变原意的整理与编辑:
平安科技副总工程师、联邦学习技术部总经理王健宗
刚刚经过幸运的抽奖环节,相信大家也稍微轻松了一些。那么接下来,我将为大家带来一些不一样的东西,分享我们在联邦智能生态中所做的工作创新和思考,以及它在智慧城市中的应用及未来趋势,其中很多分享内容将是首次呈现给大家。
我今天的演讲主题是《联邦智能:智慧城市的突围之道》,它主要分四个部分:第一部分,人工智能中的数据困境;第二部分,突围之道:联邦智能重塑数据生态;第三部分,联邦智能的应用平台:蜂巢平台;第四部分,联邦智能的解决方案:智慧城市。
一、人工智能中的数据困境
目前,人工智能在移动互联网、云计算、大数据、IOT、5G等新技术的驱动下得以迅猛发展, 不过我们发现AI技术在落地时总会欠缺一点火候,那么究竟差在哪里?就是人工智能通用算法在本地化部署过程中所面临的数据难题,而这一块恰恰是相关技术行业或技术企业所缺乏的。
对于传统行业来说,数据作为核心的资产,各行各业都会存在数据壁垒问题,共享数据变得比较困难,阻碍了AI落地。如何来突破这一难题,让AI生态能够继续保持着高速发展的态势,是现在所有AI人迫切需要解决的问题。
以智慧城市为例,自2012年住建部正式对智慧城市启动试点、进行方案改革以来,智慧城市的发展步伐显著加快,而数据化被认为是智慧城市的基础。
理想化的图景是这样的:人们会通过政府部门、社会组织和企业的互联互通,实现数据分析和数据决策,但是实际的互联互通往往遭遇行政和商业壁垒,形成数据孤岛。这个难题,长期阻碍着智慧城市建设的进程。
同时,国内在数据隐私保护方面的法律法规日益完善,像《中华人民共和国民法总则》明确指出,规定网络运营者不得泄露、篡改、毁坏其收集的个人信息。
从2020年的最新文件也可以看到,像《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》首次将“数据”与土地、劳动力、资本、技术等传统要素并列为要素之一,提出要加强数据资源整合和安全保护,制定数据隐私保护制度和安全审查制度。这将进一步加强数据隐私的安全保护。
而另一方面,我们也可以从传统AI的技术模式上发现一些限制或者瓶颈。实际上,传统AI技术模式中的模型算法必须从大数据中挖掘数据特征,需要利用数学理论映射出数据特征与业务需求的关系,并且训练网络中权重和偏置的调整与数据量级、数据信息密度、数据来源是否真实有着密切关系。
因此,在这种传统AI技术模式的限制下,技术本身对数据有着强依赖关系,对企业和个人产生严重影响。对个人来说是同样的,在目前政策约束下,个人相关数据也会受到严格监管,这使得个人几乎无法参与到AI产品的迭代中,用户不能从他们的设备、位置等方面收集个人数据来完成功能优化。
那么,如何打破数据孤岛这一困境呢?
二、突围之道:联邦智能重塑数据生态
我们因此提出联邦智能,联邦智能是以联邦学习为龙头,同时涵盖联邦数据部落、联邦推理、联邦激励机制,共由四大部分组成。面对目前日益苛刻的数据安全隐私的问题,我们通过构建联邦学习的技术内核,建立联邦数据部落,实现具备隐私保护的联邦推理,并以联邦激励机制为纽带形成一个完整的AI生态格局。这也是目前我们重点推动、落实的核心工作。
这里展示的是联邦智能的架构关系图。首先,我将对联邦数据部落做简要介绍。
由于业界存在诸多与数据存储相关的表现形式,如:云存储、数据湖、数据海、数据仓库等。那么我们在这里为什么会提出数据部落?
实际上,每个数据可以定义为单位个体,它们之间相互独立,但信息元素又相通,具有合作的关联属性,因此我们将这些数据单元的集合,称之为联邦数据部落。
在部落中,既有来自各行业、企业的数据,又有来自各种边端、设备的数据。
我们的初衷,是希望部落之间能够达成数据不出本地的一种合作机制。大家能够把数据贡献出来,共同去完成联邦建模。在这一过程中,会包括数据处理、样本对齐,以及一些特征信息的聚合等内容。
在联邦学习这一联合建模的过程中,机器学习、深度学习均有参与,我们也集成有自动化联邦学习AutoFL模块,它本质上是在满足提升本地模型精度的同时,通过本地模型的搜索,更新神经网络结构,从而自动地趋于满足本地计算资源和通信能力的最优网络结构。
接着,联邦数据部落中的数据信息,会以中间参数的加密形态计入联邦学习过程,最终实现联合建模,生成联邦模型。这一模型会反哺各行各业,包括智慧城市、智慧医疗等各种场景。
实际上,我们的联邦模型还能提供联邦推理这一服务应用。其中,联邦推理是基于加密方式完成推理计算的,这一过程无需上传任何相关设备存储的明文数据,或是个人隐私数据,从而保证了数据的安全和隐私性。
整个系统融有联邦激励机制。我们设计激励机制的初衷,是希望这一机制能够保证各参与方既能积极地贡献和参与,又能以此激励在这一生态中的各个参与方受益,从而更好地促进联邦智能生态向着繁荣方向发展。
下面我将展开来讲。联邦学习,是一种加密的分布式机器学习技术,本质上它是基于本地数据的本地训练,云端会发布相应的初始模型,并联合各方由本地发起训练,共同完成模型构建过程。
提到联邦学习的优势,大致可分为四点:
第一点是数据本地化,数据不会泄露到外部,满足用户隐私保护和安全的需求。
第二点是算力下沉,有助于物联网、边缘计算与人工智能的有机结合。
第三点是联合建模过程以加解密机制实时进行参数交换,符合政策法规。
第四点是参与各方的身份和地位相同,成功实现了共同富裕的目标。
我重点讲一下联邦数据部落。我们提到的联邦数据部落,是要把每一个数据孤岛部落化,以此纳入联邦智能生态中来。
对于整个数据部落来说,例如个人手机数据、IoT数据、医疗数据等,这些原始数据实际上互不相通,没有任何数据流转通道。
其中,我们会对各方间的数据获取渠道进行加锁设置。当数据合作方加入到部落中后,我们会进行一些必要工作。
首先会提供一些相关的标准化工具,在原始不交换的基础上,对来自个人或企业终端的本地数据进行处理,比如针对缺失数据、重复数据、偏离数据的数据清洗、数据降噪等工作。
实际上,我们的目标是在大家达成协议的基础上,能够选择联合终端中的高质量数据进行去中心化的本地训练。
接着,为了使用与某项业务场景相关的数据,我们会进行特征化处理,包括数据分类、特征标记、数据聚合等方式,使其有针对性的发起训练。
最后,我们会对联邦数据部落中的数据进行质量评估,这也是联邦激励机制评价的重要一环。
我们搭建的联邦数据部落,会依据数据量级、数据有效性、数据信息密度、数据真实性等评价指标,对参与联邦学习训练的数据进行质量评估,同时也起到了数据监测与评估量化的作用。
联邦推理方面,我们希望模型在应用环节也能起到保护数据隐私的作用。
以声纹识别为例,它属于生物特征的一种,并在一定程度上是极其重要的个人隐私信息。声纹语音特征具有抗时变性,短期内它不会随着年龄的增长而发改变。
在传统的声纹推理模式中,服务会将用户端输入的语音直接传送至云端的声纹平台与引擎中,经过前置的语音预处理,如静音消除、截幅检测等,由i-Vector/d-Vector/x-Vector声纹模型提取出高维的特征向量,再根据PLDA打分与两两比对,最终完成说话人身份确认。
比较典型的应用包括:声纹门禁、声纹锁、电话平台声纹核身。另外,还包括1:N情况下的声纹识别,即说话人辨别。
以上是以声纹为例的传统推理过程。
如果我们不上传本地语音数据将如何实现这一推理过程?
实际上,我们会在本地用户端内置一个自主开发的蜂巢系统插件,它会在保留原始声纹信息的基础上,利用混沌算法对语音信号进行加密,并形成类似白噪声的密文流信号。
在经过一系列处理后,插件会生成公钥,并连同处理语音一同传送至云端。这个公钥的作用是什么?是为了确保在云端推理过程中数据始终保持隐私性。
最后,我们会将推理加密结果返回至边端,由边端解密后直接获取到真实结果。
整个推理过程,是一个隐私与安全的链路过程,我们的原始语音与信息始终没有泄露。
联邦激励机制方面,它的核心是一个遵循基本准则的「闭环」学习机制,通过联合建模协议达成、企业贡献度评估、依据贡献度划定激励资金池、企业激励收益及业务场景获益、吸引外部企业加入、更新联邦智能生态,再回归到联合建模的协议达成,最终形成一种有效地闭环激励模式。
在激励过程中,我们首先会利用特征工程评判数据质量,比如饱和度、稀疏性、相似度等来综合衡量数据集特征,这里我们也会引入AutoFL进行自动化评估,综合输出参与方数据的平均质量向量。
其中,当其质量小于阈值界限会被剔除激励考量的行列。在此基础上,从联邦费用总额中确定激励资金池的深度。
接着,我们采用联邦边际效用评判各个参与方的数据贡献,然后各个参与方根据占比进行分成。同时,我们考虑到参与方在训练中产生的计算和通信消耗产生的第二成本,建立了最低保障机制。
在这个机制里,我们评判这个第二成本和激励分成,选取最优的那个作为最终的激励。
三、联邦智能的应用平台:蜂巢平台
下面,我将分享一下我们自主研发的联邦智能平台——蜂巢联邦智能平台。
在整个平台中,蜂巢依托平安集团这一综合性集团背景,能够提供智慧金融、智慧城市、智慧医疗商用级的一站式解决方案,希望能够以此激活数据价值,这也是我们整个平台的使命。
平台是构建围绕联邦学习、联邦数据部落、联邦推理、联邦激励机制为核心的联邦智能生态。产品适用范围包括像训练隐私、敏感数据,同时借鉴了我们之前在自动化机器学习上的一些经验,在底层进行加速,包括在底层通讯层的优化等等,也包括现在我们在加解密这一块的尝试,希望这个平台能同时满足B端和C端的需求。
这是蜂巢联邦智能平台的设计架构。在联邦数据部落里面,包括数据预处理、数据特征化、数据质量评估等,这些我们在技术上都做了一些实现。
平台支持传统的机器学习以及深度学习模型,比如逻辑回归、线性回归、树模型等,以及包括前面提到的AutoFL技术底座。
在整个模型训练过程中,我们会对梯度进行非对称加密,整合梯度和参数优化、更新模型。
在推理这一块,我们会把原始的传输的数据进行加密,最终实现推理结果。
而加密方式中,我们涵盖同态加密、差分隐私以及国密SM2&4等多种加密方式。
整个蜂巢联邦学习平台,从2018年开始,由研发到投产至今已经有两年多的时间,我们的产品定位是服务于营销、获客、定价、风控、智慧城市和智慧医疗。同时,整个团队在联邦智能技术上也有诸多包括专利、论文在内的科研成果,以及最新评选上的国家级奖项。
四、联邦智能的解决方案:智慧城市
最后一部分,我将针对智慧城市分享一下“联邦智能+”会带来怎样的解决方案,这部分我们也做了大量的工作,沉淀出很多思考和经验。
智慧楼宇。在《关于促进智慧城市健康发展的指导意见》中,智能楼宇被定位成国家智慧城市战略方针的重要核心。在该场景下,联邦智能可以提供怎样的解决方案?
在智慧楼宇场景中,有些特定区域往往存在危险隐患,从而使得危险预报检测十分关键。如办公区域禁止火源,楼宇施工过程需要安全帽防护,化工研究场所需要穿着防护服等等。
针对目标识别问题,可采用训练参数更少、计算量更小的SlimYOLOv3作为对象检测模型,面向不同识别对象的防控模型可统一封装成引擎调用,用于实时监测与识别预警。
为了共同提升模型性能,打破各楼宇间数据孤岛的问题,有相同需求的各个楼宇可加入联邦智能——蜂巢平台中进行联合训练,依靠彼此多维度的数据特征进行训练和模型提升,从而推进智慧楼宇建设进程。
这张流程图我们可以看到,当合作方将自己的数据集计入联邦数据部落后,会加入蜂巢平台的蜂巢模型层,开始进入联邦学习过程。
接下来,通过蜂巢平台提供的加密算法加密所传输的模型信息,传输到联邦服务平台的核心算法部分—联邦建模,聚合发生后产生更新的模型信息,并向参与方反馈模型更新参数。
此外,链路中涵盖前面所提到的激励机制,目的是吸引、鼓励更多的合作方加入到联邦学习的生态中。
智慧金融。智能金融可以说是智慧城市中的一个门类,举个例子,银保监会和证监会的数据是绝对不能打通的。所以对于传统的数据,如图左边所示,比如出本地联合建模,这种方式可以在实验环境做一做,但在真实数据上,这种方法行不通,因为政策法规是不允许的。我们用联邦学习建模方式做了对比实验,发现联邦学习可以提升模型效果。
车联网。在智慧城市的车联网场景下,汽车行驶记录会保存在不同的系统中,比如车联网运营方、车企、交管局、车辆相关的个人APP等,包括行车路况、车险记录、导航记录等。
假设为了更精准的预测行驶过程中的路况信息,以及满足市场二手车交易中的信用评级需求,各车企鼓励用户将本地行车数据上传到企业提供的云端,每个车企根据用户提供的数据,为不同系列的车辆训练不同的模型。
在联邦智能生态中,车企之间可进行联合训练,以提高模型评估效果。每个合作方会向聚合服务器提供本地模型参数与初始配置信息,聚合服务器会向参与方发送更新后的模型。
由于各参与方数据和模型量级可能存在差异,为了避免负载分配不均衡的情况,聚合服务器可实现服务器与参与方之间的负载分发平衡。
此外,本方案允许参与方同时训练多个模型,因此会提供任务管理服务,协调车企之间的并发响应机制。因此,车联网下的联邦学习解决方案可以有效提升车联网投产落地速度,减少迭代周期。
联邦机器人。我们目前已经研发有全球首台联邦智能机器人。我们以联邦学习的方式,在数据不共享的情况下,定期结合银行本地的相关的客户数据、客户信息,发起一些增量的训练,提升模型应用效果,比如个性化推荐、精准导航等等。同理,由银行场景延伸,在保险行业、智能家居等场景下同样适用。
最后,在智慧城市+联邦智能方面,联邦智能作为枢纽,将会为智慧安防的未来提供更多新的机会。
像食品安全、药品、防疫等方方面面,是需要通过联邦将数据孤岛进行有效“连通”,这里指的“连通”即是通过技术手段实现的互通。
同时,随着公民的隐私安全意识的加深,为了更好地为公众带来高品质的个性化服务,且服务标准、规范,改变粗放式服务模式,联邦智能可以在规避隐私安全问题的红线,同时助力智慧城市建设与数据应用间的平衡,提升诸如个性化推荐等服务质量。
同时,我们的目标是能够实现精细化的智慧城市发展,在当前新基建的背景下,立足于数据,依托联邦智能生态,加速精细化服务时代的到来,这也是联邦智能的机会!
谢谢大家!雷锋网雷锋网(公众号:雷锋网)雷锋网
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/81325.html