量子视觉张聪:VR+行业还不成立,市场需要专注底层技术的创业公司

雷锋网「新智造」按:雷锋网正在启动“新智造成长榜2017”评选活动,我们将对人工智能与机器人行业进行大规模报道、梳理和调研,并联合数十家著名投资机构根据这些创新公司的技术实力、商业能力和成长性进行深度评选,最终从多个领域分别选出一些极具潜力成长性的创新公司。本文为雷锋网「新智造」对一家VR创业公司的报道,报道对象为量子视觉,讲述其如何创造性地使用深度学习改进图像拼接,并开发出一体化的VR摄影机。如果你想参与我们的评选,可点击「报名」链接,或通过邮箱xinzhizao@leiphone.com联系我们!

从2014年Facebook收购Oculus,到2016年下半年资本冷遇,VR热潮如烟花般绚烂而短暂。在这样的一个时期,一家VR创业公司的发布会就显得非常可贵,尤其是这家公司发布的是一款货真价实的高端硬件:20目摄像头,可以拍摄10K、360度3D视频的VR摄像机,售价98000元。

这款叫AURA的VR摄影机出自量子视觉,一家由三个计算机博士组建的公司,把学到的技术应用到行业中的具体需求的想法,让他们三个走到了一起。

日前,量子视觉CEO张聪接受了雷锋网新智造的采访。在他看来,过去两年,资本和创业者对VR的热情,很大程度上源于过去一贯的成功经验:在某个行业里有深厚资源的人,往往会第一时间讲新出现的技术加以应用,集合自己的行业,就能产生巨大的价值。但这个逻辑目前无法在VR成形的原因是,从底层技术上来说,VR的很多方面都还是缺失的。张聪向雷锋网新智造介绍了AURA背后的技术积累,以及量子视觉的创业故事。

从计算机视觉博士到VR创业者

在上海交通大学读博士期间,张聪以研究助理(RA)的身份去了香港中文大学,师从王晓刚教授和汤晓鸥教授,两位在华人世界里最权威的图像识别研究者。

张聪说,研究图像,是让他开心的事情。数学、物理领域推公式、证明效率更高的研究不同,直观的图像是能让张聪兴奋起来的东西。所以,本科学习电子工程,博士他就转去做计算机视觉和机器学习了。

2012年,多伦多大学计算机系教授Geoffrey Hinton的学生用老师在6年前提出的Deep Learning理论,参加计算机视觉最知名的比赛ImageNet并拿下冠军。自此开始,深度学习开始成为计算机视觉的通行研究方法,香港中文大学就是最早一批转到新方法的机构。张聪说,用深度学习处理计算机视觉的问题,很多领域的第一篇论文就出自他所在的实验室。

量子视觉张聪:VR+行业还不成立,市场需要专注底层技术的创业公司

但毕业后,张聪并没有去做计算机视觉相关的工作。他的理由和当初选图像作为研究方向如出一辙:VR这种更直观的体验,带来的兴奋度是远远超过图片的。

他还有个“私心”,如果去做计算机视觉,和香港中文大学渊源颇深的商汤科技是最好的选择,实际上他也完全有机会进去,“但商汤里100多个博士,你进去了又能怎样呢?”

30岁前一直待在学校、实验室,张聪想让自己学到的技术能给这个世界带来一点东西,甚至创造商业财富,在这个过程中,个人价值也能得到最大的实现。

2015年5月,运动相机制造商GoPro宣布收购专注于全景图像拼接的法国创业公司Kolor,这让张聪找到了灵感。将图片和视频拼接成全景图像,是VR的第一步,从这次并购来看,市场对拼接软件是有需求的。

张聪坚信VR是朝阳产业,而且是他和两个合伙人,也是同一个实验室的韩庆龙和黄之燊能够将自己所学应用进来的领域。三个人,韩庆龙研究方向是视频编码和图像处理,黄之燊主攻深度图像解析和图形变换,张聪的长项是深度学习。于是,图像拼接成了他们创业的方向。

“其实我们的机会成本挺高的,如果我们现在去找AI的工作,七、八十万的年薪总是逃不掉的。”

升级拼接:把“抹平”拼缝改进为像素级匹配

量子视觉把图像拼接作为创业的第一步,来自他的团队的底气。Kolor被收购后,他们也试着开发了拼接软件,并用几台小蚁相机搭建了全景相机,拍完照片一看,“效果已经比Kolor好了”。

张聪告诉雷锋网(公众号:雷锋网)新智造,背后的秘密来自算法的升级。图像拼接要处理的一个很重要的问题是“抹平”拼缝,通俗来讲,将图像拼接起来,进行畸变校正后,两个图像的拼接处因为灰度的细微差别等原因,会产生“拼接缝”。为了让拼接更完美,就需要抹平这些缝隙。

Kolor使用的是一种很经典的拼接算法,基于一些特征点做校正和变换,然后使用Multi-Band的方式,让图像拼接处平滑地过渡。这种算法在八十年代就已经被提出,因为能兼顾拼缝附近的局域细节和大尺度上两张图片的宏观特征(如光照)而被广泛采用。

量子视觉则改用了一种新的算法,原理上是将两个拼接的图像进行像素级的匹配,这样就不存在缝隙的问题,图像拼接效果也更完美。匹配像素的过程在学术里就是光流的问题,所以,这一套方法也被称为光流法拼接。

光流法拼接的另一个好处是可以实现更好的3D效果。过去,要拍摄有3D效果的全景视频,需要几组平行的双目摄像头,通过左右两个画面的视差产生3D效果。但这种方法的问题是只有摄像头正对的画面3D效果是比较好的。光流法则是基于点云计算出来深度信息,从而实现每个角度都有的3D效果。这个过程设计基于估计的深度和重建,要用到深度学习技术,这正是张聪的强项。

在找松禾资本和IDG融资时,量子视觉已经在使用光流拼接法。张聪说,投资人是看不懂这种方法的,但可以明显感受到拼接的图像质量更高。

2016年4月的F8大会上,Facebook发布了360度3D全景相机Surround 360,并开源了硬件设计和拼接算法。张聪发现,拥有最多的权威VR专家的Facebook,使用的也是光流法拼接,Facebook使用的框架也和量子视觉有很多相似的地方。

量子视觉张聪:VR+行业还不成立,市场需要专注底层技术的创业公司

(Facebook的Surround 360)

Facebook开源,意味着所有人都可以使用这种方法去做图像拼接,这当然引起了量子视觉的担心。不过仔细研究,张聪更多的是踏实,一方面,是和权威专家的不约而同带来的学术认同感;另一方面,Facebook的实际拍摄经验并不多,它的方案更多的是提供了一个通用的、开源的,能够引导大家的算法,在真正的生产和内容制作环节,Facebook的方案中的一些模块是有问题的。

“我们有这种原发的能力,可以基于我们的相机和实际情况进行调整。算法依旧有一个很大的改进空间。”

Aura:可以拍10K 、360度3D视频的专业级VR摄影机

拿到第一轮融资后,张聪就升级了用小蚁相机搭建的全景相机,改用了4个索尼α7以及20个GoPro组成的方案。他告诉雷锋网新智造,进行图像拼接时,除了算法,硬件的排布也非常重要,所以,他们的研发,就是不断迭代算法,改进硬件排布,两边不断相互迭代的过程。

方案做好后,量子视觉要去市场试水。他们最有名的作品,是拍摄黄晓明的新剧《万水千山总是情》的VR宣传片,以及张楚的第一只全景MV《晃动一下》。张聪还透露了VR视频制作的“潜规则”:不少团队号称可以制作VR视频,但他们接活儿后会再找有能力的外包。“黄晓明的片子,到我们已经是第六道了。”

量子视觉张聪:VR+行业还不成立,市场需要专注底层技术的创业公司

(《万水千山总是情》VR宣传片)

视频的效果还不错,但拍摄的过程让张聪坚定了自己做一款VR摄影机的念头。使用单反或者GoPro拼接的方案,最大的问题是操作太麻烦了,每个相机的参数,包括同步、存储,甚至是拍摄完成后将素材拷贝下来,都是一个繁琐务必的过程,“你要把SD卡一个一个拔下来,拷贝素材,再放到软件里拼接。”这样的方案,也根本无法给任何第三方使用。

从2016年3月份开始,量子视觉就开始了研发一体化VR摄影机的进程。把多个摄像头通过特定的排布方式集中到一个球形上,同时要考虑散热、结构、电池续航和量产,每个环节都是“坑”。不过,深圳是硬件创业者的天堂,而且,早在有这个念头之前,量子视觉就招募了前火乐科技研发总监曾作为,坚果G1智能家庭影院、坚果P1便携智能投影等畅销产品,就出自他手。

2016年十一期间,量子视觉就做出了直径20厘米,排球大小,有着20目摄像头的全景摄影机,并和暴风体育合作,用在中国网球公开赛的VR直播中。此后,经过再次迭代以及配套软件的开发,量子视觉在今年3月21日正式发布了这款相机——AURA专业级VR摄影机。

量子视觉张聪:VR+行业还不成立,市场需要专注底层技术的创业公司

AURA由20枚镜头组成,水平方向为16枚视场角90度的广角镜头,顶端和底部则为4个视场角为190度的鱼眼镜头,可连续拍摄1个小时,使用外部供电方案则可以实现长达10小时的连续拍摄。AURA可以支持目前主流的 H.264、H.265 视频编码标准,最大可以输出25fps的10K 3D影像、60fps的10K 2D影像以及120fps的6K 2D影像。它还可以进行VR直播,实时输出6K、30fps的3D VR直播画面,并通过RTSP协议进行有线或无线实时监看。

AURA还有配套的实时监控软件AURA WORK和后期制作软件AURA STUDIO,可以实现实时监看,以及一键快速素材导出、拼接、剪辑等,大大提高了高质量VR视频的制作效率。

“我自己也觉得,我们公司的模式很重,又要做硬件又要做软件,但这是因为整个生态链不成熟。我们坚持做下来,反而会成为壁垒。”

VR+行业还不成立,市场需要有专注底层技术的创业公司

现在,VR遇冷在张聪看来并不奇怪。去年VR被资本热捧的原因很简单,大家默认VR是一个成熟的东西,和各个行业结合,就可以产生巨大的价值。

不过现在来看,这个逻辑并不成立。其中最大的问题是在根本的底层技术上,VR的很多方面都是缺失的,整个生态链还处于非常不成熟的阶段。以VR直播为例,在直播时,需要有实时拼接能力和推流能力的高清摄影方案,但同时,网络的上行带宽、CDN分发以及用户的接收端,都还存在很大的问题。

因为高端设备价格昂贵,加上VR内容,尤其是VR视频体验糟糕,C端市场的缺失是VR行业面临的有一个大问题。现在,已经很少再有明星尝试VR版的视频内容。

在这样的情况下,更需要有专注底层技术的创业公司,这也是量子视觉推出可以拍摄10K视频的VR摄影机的原因。通常来说,人眼的视角区域不到70度。在360度的全景视频,需要10K的分辨率,才能在人眼所视范围内,达到每只眼4K的观看效果。

“我最开始创业的时候,就没觉得VR会很快火起来,因为我当时看大家做的东西都一塌糊涂。”张聪把这个看做技术创业者最好的机会,而将技术壁垒快速转化为商业壁垒后,有造血能力的VR公司会在一两年内迎来春天。

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/90080.html

(0)
上一篇 2021年8月14日 02:06
下一篇 2021年8月14日 02:06

相关推荐

发表回复

登录后才能评论