今年8月,雷锋网将在深圳举办一场盛况空前,且有全球影响力的人工智能与机器人创新大会。届时雷锋网将发布“人工智能&机器人Top25创新企业榜”榜单。目前,我们正在拜访人工智能、机器人领域的相关公司,从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中,请联系:2020@leiphone.com。
雷锋网按:本文整理自黄通兵在雷锋网(公众号:雷锋网)硬创公开课上的演讲。黄通兵是七鑫易维创始人兼CEO,中国第一台穿戴式眼控智能眼镜发明人,眼控沟通辅具市场开拓者,曾担任飞行器协同设计平台、某航天运载火箭设计系统架构师。创业以来一直致力于推动眼球追踪技术在人机交互、眼动分析、VR/AR、汽车等众多领域的应用。
一、眼球追踪技术是怎样一种存在?
-
眼球技术追踪原理
眼球追踪首先分为浸入式和非浸入式两大类。目前,最流行的眼球追踪技术主要应用到光学技术、图像识别技术。
例如,我们提供的VR中眼球追踪模组工作原理是:首先通过传感器识别人眼的特征点,建立人眼的数学模型,在眼球转动过程中对转动动作进行捕捉,通过复杂的算法计算出人眼注视点的位置。
-
眼球追踪目前的应用如何?
眼球追踪技术其实起步很早,但众所周知,一些前沿的技术总是最早出现在军事领域,主要是用于战斗机瞄准技术等。
目前眼球追踪民用化应用还处于起步阶段,应用比较成熟的也是我们最早涉足的就是眼控沟通辅具,主要是帮助渐冻症患者通过眼睛控制电脑与外界沟通交流
另一个应用比较广泛的是广告分析领域。
例如,电梯里一块广告屏,每天有多少人看,看的人看的是文案还是图片还是模特,眼球追踪技术都可以捕捉到这些数据,可以帮助评估广告效果,及时完善产品。
上图就是眼动分析的很好实例,其实两幅广告的差别就是模特的眼神。
再比如现在一款手机发布总会有几种颜色可以挑选,但是究竟哪个颜色受欢迎谁都无法保证,这个时候眼控广告分析的价值就体现出来了,只需要把几款颜色的手机放到一起,最终数据会很直接的告诉你哪一款最受关注。
二、眼球追踪如何在VR领域实现运用?
1、为什么选择眼控?
虽然目前VR的眼球追踪还刚刚起步,但是随着眼球追踪技术成为VR的标配,眼动相关的应用都会随之而来,比如,在虚拟购物中采用眼动分析来手机用户的兴趣点大数据。
说到为什么选择这个方向。我之前是做航空方向的,军用瞄准头盔中头动追踪、眼球追踪都是很重要的技术。我更希望把这些技术做到消费级、推广到大众应用中,才有最大的成就感。
其实不仅仅是眼球追踪,对于很多的技术来说,并不是选择什么方向而是更适合什么方向。2009年的时候智能设备还不够发达,当时能用眼球追踪的领域非常少,而对于渐冻人来说,后期只有眼睛可以动,他们需要与外界沟通只能通过眼睛,所以我们就进入了沟通辅具领域。如今也是同样的道理,VR虽然火起来了,但是它的很多问题却一直在,包括眩晕、渲染、交互等都是存在问题的,能够解决这些问题的技术是什么,我觉得眼球追踪技术是一个很合适的方向,所以我们进入VR领域,属于天时地利人和。
-
目前的VR交互方式有哪些?
对于VR来说交互应该是多元化的,动作捕捉,手势识别,语音识别,眼球追踪,脑电肌电……这也是VR魅力的所在,不同的场景,获得不同的体验感受就需要不同的交互方式来支持。
这些方案各自实现的关键技术是什么,存在什么优缺点?
动作捕捉现在有光学方案、姿态传感器、以及二者融合的方案,技术上比较成熟,国内例如诺亦腾就在做,优点是可以把整个人体的动作带入VR中,缺点就是使用较复杂。
手势识别其实是动作捕捉的细分,例如有纯光学的Leap motion和诺亦腾的姿态传感器方案,光学的缺点是有死角,姿态传感器的方案没有死角,但是穿戴稍微复杂。
语音识别的话,随着深度学习等新技术的应用,识别度会越来越高。但是,语音识别适合命令和文字等输入,对于鼠标类连续“坐标”的输入,是不行的。
眼球追踪在VR上应该是比较适合普及的交互方式,VR眼镜也是天然的一个眼球追踪平台,距离人眼非常近,适合加装眼动传感器。除了快速交互以外,还可以实现注视点渲染,眼动数据分析等强大功能,缺点就是会增加一些成本。
说到脑电肌电,这是未来的辅助输入方式,目前的电极还比较多,使用稍微麻烦,不过低精度的输入已经可以实现。
-
相对于其他交互来说,眼控有能解决什么?
相比于其他交互来说,眼球追踪门槛低无需复杂外设,受环境影响小,应用场景几乎无限制,更为重要的是眼控交互非常人性化,眼动交互非常符合人的直觉。
比如,战斗机游戏中,就可以体验真实的眼球锁定目标进行打击的快感。
又比如,在游戏应用中隐藏菜单功能,通过其他的交互方式需要刻意发出指令隐藏和调用菜单,而眼控交互可以非常自然,当注视点偏离,菜单会自动隐藏。
甚至注视字母,配合手指、脑电肌电动作进行快速打字,经过我们测试也是非常酷的。
2、在VR领域,眼球追踪技术是一个什么样的角色?
1)眼球追踪技术都是如何实现的?
眼球追踪技术的原理就是通过算法判断人眼的注视点位置,不管是局部渲染还是眼控交互都是基于注视点的判断进行的。当我们通过算法判断出注视点位置,对这个位置信息可以进行有效利用,比如焦点渲染技术是实现对注视点位置高清渲染,其他区域降低分辨率渲染。
VR领域中眼球追踪的技术有很多,除了传统的光学方案,采用高速的近红外摄像头。其实还有眼电流、MEMS眼动系统、接触镜等。但目前效果比较好还是以光学为主。
我这里就主要讲讲目前的光学方法,采用高速的近红外摄像头拍摄人眼红外特征图像,然后进行图像处理,再通过预先建立的人眼数学模型进行注视点求解。
这是为了解决目前VR渲染高GPU性能需求的技术;如果对注视点区域设置了UI级的交互,例如你看一个虚拟美女的时候她会朝你笑一下,这是VR眼控交互技术。
2)在VR上实现眼控,难在哪里?
-
结构上的限制
VR眼镜的光学结构不同,会给加加眼球追踪带来一些麻烦。VR眼镜里加眼控技术要受到VR的使用条件和结构紧凑的限制,既要保证VR设备体积和重量,还要能与VR本身的结构相融合。
例如非球面透镜和菲涅尔透镜,就有很大的区别,还有用户佩戴眼镜、隐形眼镜等干扰,都需要处理。
-
眼球追踪范围大
在VR应用中,眼动范围很大,几乎达到了人眼转动的极限(垂直30°,水平50°),这样也让眼球追踪的难度增大了很多。
-
VR设备的晃动
VR设备是头戴的,头部的晃动以及设备相对头部的晃动都是难免的,在这种运动状态也要准确的获取数据,无疑是对硬件和算法很大的挑战。
-
眼球的差异
还有人的眼球其实都是不一样的,亚洲人和欧美人都有较大差异,红外特征也不同。
人们的眼球个体差异还体现在,人眼的Kappa角不同(甚至有的人有严重的斜视),有的人有轻微的眼疾,有的做过眼部手术等等。都会导致眼球追踪无法工作,所以都需要考虑进去。这往往需要大量的差异化数据采集,才能做到较好的可用性。
-
最后是,实时性强,精度高
VR眼动数据应用需求也不同,表现在实时性强,精准度高。比如把眼动数据用于渲染控制时,需要及时获取注视点坐标,并进行渲染,要求延时非常低。在游戏应用中,不但要求实时性强,还要求精度高,才能带来良好的用户体验。VR需要的眼动数据获取频率一般要在120Hz以上。
当然以上的几个难点有的是提前考虑到的,有的是在研发过程中遇到的,当我们把这些难题都解决了,就有了我们现在的VR眼控方案。
3)该如何平衡VR目前渲染、性能不足等问题?
解决VR目前渲染,性能不足问题,这个正好是眼球追踪的强项,因为:人眼成像的过程中,中央凹视野(Foveal vision area)成像清晰,只覆盖视野1~2度,视觉敏锐度高;周边视野(Peripheral vision field)成像是模糊的。
说直白点,人眼其实只能看清指甲盖大小的区域,而周围区域都是模糊的,只有亮度和运动敏感度。
眼球追踪可以辅助GPU实现Foveated Rendering。
如图所示,当人眼在看屏幕H时,虽然整个屏幕都可以看到,但是只有B区域的中央凹视野是清晰的, AC区域成像模糊,因此在画面渲染过程中只需要渲染中央凹视野很小的范围,对周边视野区域进行模糊渲染。眼球转动,高清渲染区域随着注视点的变化而变化,这样既可以得到高清的视觉体验,又可降低GPU负荷,从而可以大幅的降低VR设备对硬件的要求。
三、究竟什么时候能实现商用?
1、你们的眼球追踪做得怎么样了?
目前我们的眼球追踪技术和国际上几家眼球追踪技术公司相比基本属于各有优势,所以在国际合作上也比较受重视。比如HTC、facebook,高通、英伟达、谷歌等科技巨头都有跟我们接触,希望通过眼球追踪解决渲染问题,提升交互体验。
高通和英伟达则更注重渲染问题,现在已经和我们有技术上的合作,主要针对将眼球追踪技术注入到硬件芯片层,从底层技术实现渲染优化。
2、眼球追踪技术实现商用,最大的瓶颈是什么?
眼控VR实现商用的瓶颈主要还是VR大环境还尚未成熟,就以目前主流的VR设备来说不管是清晰度、质量、还是内容都有很大的提升空间,而这些都是VR发展的初级关卡,只有这些问题都解决了才能晋升去攻克更难的交互,渲染等问题。
不过目前很多VR相关厂商都在与我们建立合作,还是很有信心。
3、眼球追踪技术在VR领域应用得怎么样?
目前能较为成功的将眼球追踪技术用于VR中的,除了我们这样的国内创业公司,还有有德国的SMI公司。SMI联合三星发布的套装包含内置了眼球追踪相机的Gear VR。还有一款Fove也引入眼球追踪技术,不过从去年众筹开始就一直延期发货。除此之外还有EyeFluence专注在眼动交互方案的研发。
根据目前VR厂商对眼控VR的态度来看,眼控VR商用在今年就会出现在一些VR设备上,真正达到市场级可能需要等2017年,一些大品牌开始进行硬件迭代,眼控作为可以解决大部分基础交互的技术方案,开始进入商用阶段。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/67943.html