在技术研发的路上,阿里云已经取得了丰硕成果,形成了包含弹性计算、数据库、存储和CDN、云盾、大规模计算与分析、中间件与应用服务、域名和网站在内,7大方向,30多种产品和服务。其中,自主研发的飞天5K更是帮助阿里云在世界上获得了极高的赞誉。但面对图像识别、语音通讯、机器学习、深度学习及其他人工智能等新技术突飞猛进的发展,云计算平台的产品和服务还需要不断推陈出新,加速迭代。
阿里云CTO 章文嵩
这也是阿里云在首届云栖大会北京峰会上,集中发布了11款新产品,并预告了即将推出的10大产品与服务的原因。而在产品之外,阿里云的技术发展路径更引人关注。章文嵩在成为阿里云CTO后,主要负责技术路线制定,技术体系的优化和新技术研发。他在题为《NEXT·技术》的演讲中,提到阿里云已经看到云技术的下一次爆发点——GPU高性能计算。
GPU高性能计算背后的新需求
为了更好阐述这一观点,章文嵩从多方面进行了剖析:
内部:去年阿里集团内部共上线了33个GPU应用,对应的图片训练已经到1亿+张。在阿里云上线2P FLOPS的GPU计算集群(未来规模还将翻番)之后,一周之内就被所有业务部门一抢而光。已经涵盖人脸识别、标签识别、质量控制、商品分类、风格预测、拍照购、OCR、语音识别、图象搜索、反黄等多个方面,为业务创造了巨大价值。
外部,基于深度学习、图形图象识别、语音技术的大规模爆发,业内迅速涌现出如Face++、格灵深瞳、Linkface、知图科技等10+创业公司。
在他看来,神经网络在80年代后期出现过一个低点。2000年前后,从浅层学习到深度学习的演变,将神经网络提高了几个数量级,对计算需求更高。尤其是近几年,2012年谷歌大脑用16000个CPU实现深度学习,为整个业界带来很好的启示。在互联网这富饶的土壤上,语音和图像的技术与应用的成熟,深度学习技术与业务的紧密结合,使得技术的投入和发展进入了良性循环。“我们可以看到,数据和计算成为爆发的基石。比如深度学习模型对数据依赖性非常高。过去解决问题是从模型算法着手,现在更多是获得高质量数据。数据已然决定了整个模型的训练效果,高质量的数据当然需要多多益善。这就带来了一个巨大挑战:获取、保存海量数据,并要大幅降低存储成本。要知道,即使是银行,14天后数据就会清除。另一方面,商业领域计算能力从未过剩。一张图片的特征提取要170G次浮点计算;120万张图片进行一次网络训练,需要318P次浮点运算;一个CPU要算上22天的计算量拿GPU来做,大概是18个小时。”
具体来看:
- 数据能力。包括数据获取、数据存储、数据传输、数据加工和数据使用,正如原油、汽油和石油只是提炼品一样,挖掘和提炼能力越高,产出就越高。DT发展的必然阶段,就是从数据分析到高性能数据分析。要实现这一点,需要更高效能、更强大的计算能力。
- 计算能力。比如谷歌大脑用了1000台服务器,每台6核,耗电是600KW,500万美金的成本投入。而斯坦福大学人工智能实验室重新做了一遍,只需要3台GPU服务器,耗电只有4KW,3.3万美元的投入。技术演进将带来巨大变革。在参数模型中,包含GPU,众核处理器充当内存,关键计算用Hybrid CPU—FPGA,在加上极致的软件性能优化,效能提升迅猛。“我们在一种模型上的优化,最多可以提升60%,而美国一家技术创业公司同样的优化,只能提升20%。”通过软硬一体的优化,使得物理机+加速器的能力能直接对外部输出,将是云上IaaS的第二种形态。这样的方式下,云上超算能力不会成为瓶颈。
- 构建技术生态。企业不仅需要计算,还有更多配套服务。比如数据、信息的高速获取和分发需要极速CDN,数据和信息存储需要对象存储,互联网应用落地需要云服务器、负载均衡、云数据库,大数据分析和高性能数据分析需要大数据处理如ODPS和高性能计算,GPU集群对外输出(今年9月份天池大数据计算,会让参赛选手使用GPU集群)。
章文嵩总结道:“我们相信数据能力+计算能力+技术生态,可以实现用技术拓展商业边界的目标。阿里巴巴联合更多合作伙伴,开放出更多如同人脸识别、深度学习等人工智能新技术,和社会分享,帮助企业实现弯道超车。”
支持开源,JStorm将捐赠给Apache
对于阿里云技术路径的规划和设计,章文嵩表示:“效率和资源利用率的提升,会进一步降低成本,所以阿里云在技术上,仍然会将精益求精做到极致。我相信有一天我们能把云计算平台做到世界领先的水平。对于未来,DT时代的技术爆发点已经比较明确,关键是利用海量数据和一些比较成熟以及新出现的技术实现业务目标。为此,我们在硅谷建立了研发中心,成立了面向大数据研究的iDST(Institute of Data Science&Technologies,研究领域包括机器学习、大数据挖掘、自然语言处理、移动搜索、多媒体识别等),阿里云本身还在各个层级进行技术和人才的储备。”
阿里云是业内少有的在开源优化和自主研发并行的公司。对于未来技术选型,章文嵩表示:“在开放云平台上一定要搭建自己的体系,一方面是在核心组件上会自研,只有这样,才能走的比行业更领先;另一方面,如果某些技术,我们自己做的效果比开源好5%和10%,意味着成本就会降低很多,也会选择自研。而在对外服务上,阿里云则会纳入很多开源工具和客户习惯的开源体系,比如Hadoop、Docker,来为企业提供所需的相关服务。”
除此以外,章文嵩还谈到:“作为目前国内开源贡献最多的一家企业,阿里巴巴也在开源技术方面受益很多,我们会积极回馈社区,促进良性循环。现在,阿里巴巴已经是Linux基金会成员,Xen基金会成员,计划加入Apache软件基金会。阿里在电商方面的开源技术,已经直接被国内相关企业所采用(没有任何修改)。未来,我们会把很有竞争力的产品捐献给Apache。比如阿里的JStorm(阿里的流处理框架),就会在不远的将来捐出。”
阿里云总裁胡晓明表示大力支持:“我们拥抱开源,同时会坚持开放,让开源的产品和阿里巴巴本身的架构体系更加融合。同时推动阿里巴巴的技术进一步的开放和开源。”
这一路线也得到了阿里云所有部门的认可。同时,对于开源,阿里云也倡议国内企业不要过于“拿来主义”,也要有互联网精神的贡献来回馈社区。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/47054.html