人工智能领域有很多比赛,近年来,随着领域不断升温,在学术界之外,很多技术创业公司也开始参加各种大赛,来证明自己的技术实力。除了火热的各种机器人比赛之外,在深度学习、机器视觉等领域的算法比赛也逐渐被人关注。「人脸识别」作为机器视觉中重要的应用领域,肯定也少不了。说到人脸识别,首先,先介绍两个老牌的比赛:
-
FDDB
FDDB的全称为Face Detection Data Set and Benchmark,是由马萨诸塞大学计算机系维护的一套公开数据库,为来自全世界的研究者提供一个标准的人脸检测评测平台。它是全世界最具权威的人脸检测评测平台之一,包含2845张图片,共有5171个人脸作为测试集。
测试集范围包括:不同姿势、不同分辨率、旋转和遮挡等图片,同时包括灰度图和彩色图,标准的人脸标注区域为椭圆形。值得注意的是,目前FDDB所公布的评测集也代表了目前人脸检测的世界最高水平。
-
LFW
LFW全名Labeled Faces in the Wild,是由马萨诸塞大学于2007年建立,用于评测非约束条件下的人脸识别算法性能,是人脸识别领域使用最广泛的评测集合。该数据集由13000多张全世界知名人士互联网自然场景不同朝向、表情和光照环境人脸图片组成,共有5000多人,其中有1680人有2张或2张以上人脸图片。每张人脸图片都有其唯一的姓名ID和序号加以区分。
LFW测试正确率,代表了人脸识别算法在处理不同种族、光线、角度、遮挡等情况下识别人脸的综合能力。
这两个比赛使得人脸检测和人脸识别真正从学术界走向工业界,达到实用的精度。目前为止,这两个比赛已经吸引了国内外很多技术团队参加,其中包括Google、Facebook、微软亚洲研究院等顶级的工业界与学术界团队,以及百度、腾讯、商汤、Face++等国内团队。
5月20日,根据人脸检测评测平台FDDB公布的数据排名显示,来自中国的人工智能公司阅面科技(ReadSense)在众多的优秀竞争者中拔得头筹,当时雷锋网也对此事进行了报道。
6月末,LFW公布了最新的测试结果,阅面科技的人脸识别技术以99.82%的识别精度获得第一名。
由此,这家创业公司成为了史上第一个在FDDB和LFW同时夺冠的团队。为此,雷锋网(公众号:雷锋网)采访了阅面科技算法总监童志军,从技术的角度了解了一下关于阅面科技在这两次比赛中所获突破的技术细节。
FDDB小尺寸的突破
根据FDDB官方发布的人脸检测技术报告显示,指标曲线包含离散和连续两个,而这两个指标阅面科技都获得了第一,关于这两个指标的实际意义,童志军介绍说:
人脸检测离散指标更注重评测算法的检测率,只要算法预测检测框和官方提供的GroudTruth的IOU(intersection-over-union)大于0.5就可以。
连续指标除了评测算法检测率,还对框的拟合程序作了细化的比较,属于细粒度的评测。
实际使用中更关注离散指标,只要能检测到人脸就达到实用要求,这主要是因为人脸检测后续都会加上人脸关键点定位来做细粒度的对齐。
△FDDB官方发布的人脸检测技术曲线
而此前据雷锋网了解:阅面科技在FDDB上提交的全新检测算法突破了小尺寸、模糊和动态人脸检测的极限。
关于这个「小尺寸」,童志军向雷锋网解释说,小尺寸主要是分辨率在10*10以下的模糊人脸检测,而这类的检测在安防应用领域很常见。
为了解决小尺寸、模糊和动态人脸检测的问题,阅面科技团队自己采集了特定场景的数据,和跟客户合作累积的数据相结合,形成了基于实际场景的百万级的人脸数据,并且使用这些数据训练基础模型,在网络模型设计中引入高低层特征联合、多尺度融合、负样本挖掘等策略,重点解决较为棘手的小尺寸、模糊和动态人脸检测难题,从而提高了小尺寸模糊人脸的检测率。
LFW高精度识别和难点
在FDDB之外,阅面科技在LFW数据集以达到99.82%±0.0007人脸验证精度夺冠,据雷锋网了解,LFW人脸识别(1:1验证)实际评测时包含3000个正pair和3000个负pair,把6000个pair分为10组,而阅面科技的的验证结果正式采用10次交叉验证的方式得到平均识别率为99.82%,标准差为±0.0007。
△LFW测试结果
而之所以能够得到如此高的精度,童志军说,在阅面提交的人脸识别算法是以改进版的残差网络为基础,训练数据来自内部收集的千万级的人脸数据,训练过程中同时加入识别和验证两种监督信号保证同一个人的类内距离更小,不同人的类间距离更大。由于人脸五官具有明确的语义信息,阅面采用的多模型融合版本最终得到了98.82%的精度。
听起来好像轻描淡写地就把识别率提升了,其实在实际操作过程中还是碰到了一些难题,童志军向雷锋网举了个例子:
我们两个比赛都是使用基于深度学习的算法,通过“增加更多数据、加深网络规模”得到一个不错的「Baseline」之后,发现进一步增加数据和网络层数并不能带来提升,算法性能到了一个瓶颈。
后来我们仔细分析了一些测试的「bad case」,并对网络做了可视化,有针对性的调整网络结构,最终以50层的网络规模达到别人300层网络的精度。
虽然精度已经达到了上述高度,但在实际应用中还有一些难点需要攻克,比如实际应用复杂光照(过曝、暗光)下的人脸识别、跨年龄段的人脸识别都是急需攻克的难点。童志军告诉雷锋网,阅面的团队目前主要解决了大部分复杂光照下人脸识别精度低的问题,通过3D人脸模型和生成对抗网络的方式合成特定光照的人脸,增强模型的鲁棒性,其他也都在陆续努力解决中。
人脸识别深度学习优势
人脸识别曾经在业界有一个比较普遍的说法,认为深度神经网络“层数越深,精度越高”,但是这种说法似乎在人脸识别这个领域并不是绝对的,对此,童志军认为:
在通用物体检测识别中,往往层数越深,精度越高,但由于人脸相比于通用的物体具有很强的先验知识,比如说人脸的五官分布普遍一致,更好地挖掘这些有效信息,往往能收到事半功倍的效果。
可以说在人脸检测和识别上,并不一定需要很深的层数也能达到很高的精度。
据童志军介绍,阅面相比于其他团队在深度学习算法上的优势在于,阅面更偏向于嵌入式的深度学习算法研发,这其中包括半监督的数据清洗和挖掘引擎,多机多卡的云端训练引擎,移动端深度学习加速引擎等等,使得深度学习算法在移动端也能够实时动态、低功耗、低成本地跑起来。
关于技术落地
阅面科技成立于2015年,公司的核心研发团队由来自阿里、百度、以及卡内基梅隆大学的顶尖人工智能研发人员组成,专注深度学习和嵌入式方案,致力于解决视觉识别问题。而在这两个比赛中获得的成绩,也是对他们本身技术的一种肯定,随着自研的人脸识别技术得到越来越多来自国际的权威认证,阅面科技也逐步将技术落地。
阅面科技的核心技术目前已经广泛应用于消费电子、智能安全、智能商业等领域。
而在技术落地的过程中,确实还会存在着一些难题,比如,在实际场景中复杂背景、不可逆物体形变等影响给算法精度带来的挑战等等,对此童志军说,他们的团队也正在努力解决这些「落地的难题」:
我们内部会有一个海量数据训练的基础模型,会针对不同场景做微调;另外我们还会建立数据回流机制,不断强化基础模型的泛化性。
阅面科技在人脸检测和识别领域还会继续深耕,假以时日,相信能取得更大的成果。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/127107.html