专访腾讯云机器学习平台技术负责人：揭秘腾讯深度学习平台DI-X背后的秘密

今天，腾讯正式发布了旗下深度学习平台DI-X（Data Intelligence X），这是继今年1月推出FPGA云服务器之后，腾讯在人工智能领域的又一重大举措。据雷锋网了解，DI-X将基于腾讯云的大数据存储与处理能力，为其用户提供一站式的机器学习和深度学习服务。

马化腾曾表示：“人工智能、物联网，甚至未来的无人驾驶、机器人等等，它的后台的核心一定有一颗在云端的大脑。”而对于腾讯而言，马化腾所提及的云端大脑正是构建与其腾讯云服务之上。

随着DI-X深度学习平台已经上线，腾讯云在人工智能领域产品线已经覆盖了IaaS基础设施、AI平台服务、AI基础服务、AI应用服务以及垂直解决方案。

那么最新推出的DI-X和腾讯去年开源的大数据框架Angel以及Mariana究竟有何联系？和其它平台相比，DI-X又有何特点呢？为此，雷锋网采访了腾讯T4专家、腾讯云机器学习平台技术负责人Andy。

腾讯云深度学习平台DI-X诞生的背景

雷锋网：深度学习平台项目是什么时候开始启动的？做DI-X的初衷是什么？

腾讯内部有一个机器学习平台，从2015年的10月份就开始启动了。因为公司有很多的算法工程师和数据科学家，大家做的事情都很类似，迫切需要一个这样的平台来承载大家的需求，在上面方便的进行各种组件，算法和模型的配置，快速的判断模型效果，并应用到生产上。之前公司内部的大数据平台，包括存储，计算和分析……都已经日趋成熟了，在此之上，需要往上再走一步，进行机器学习和人工智能，所以这样的平台就应运而生了。

平台在内部运行1年左右之后，效果还不错，于是腾讯云就启动了这个项目（DI-X），将内部平台迁移到腾讯云上。在今年的3月份上旬，GPU云服务器产品也对外开放了，所以DI-X刚好和它对接上，主攻深度学习，希望能帮助到更多的腾讯云的中小用户，接入AI的快车道。

雷锋网(公众号：雷锋网)：DI-X项目由哪个团队主导？现在有多少人？

项目是由SNG腾讯云的数据产品团队和TEG数据平台部的机器学习团队联合而成，人不多，就十几个。我们相信小团队比较适合快速的迭代，产品现在还很年轻，需要快速的成长。

雷锋网：在DI-X研发的过程中，遇到最大的挑战是什么？

机器学习平台的设计，其实即便是Azure，都有很多不完善的地方，而这个平台是一开始就是要服务内部用户的，所以会面对很多用户奇奇怪怪的需求，而这时如何去将这些需求化解为真正对平台有通用意义的功能，是需要有很强的理解力和把控力的，这个是对这个产品最大的挑战之一。

这个平台面对的另外一个挑战，就是人工智能和机器学习的发展太快了，很多新的功能和需求，不停的出现，也有新的更好的平台值得借鉴。我们需要更快的走完前人走的路，还要跟上后来者的节奏，这个对团队的快速迭代能力，也有很高的要求。

深度揭秘DI-X

雷锋网：DI-X的设计理念是什么？和类似数加、Azure这样的系统平台有什么区别？

DI-X的设计理念是打造一个一站式的机器学习平台，集开发、调试、训练、预测、部署于一体, 让算法工程师和数据科学家，无须关注机器学习（尤其是深度学习）的底层工程繁琐的细节和资源，专注于模型和算法调优。

DI-X的最终目的是成为一个时尚，强大而智能的机器学习平台，让机器学习充满乐趣，助力人工智能。

伴随着机器学习和人工智能的发展，对腾讯这样大体量的公司来说需要一个这样的平台来支持内部算法工程师的需求。DI-X目前已经在腾讯内部广泛使用，一开始的目的也是支撑内部。随着系统成熟，我们觉得可以通过腾讯云，把这个能力开放出来。

整体上来看，DI-X和阿里数加，Azure是竞品，大家会各有所长。

雷锋网：DI-X的架构有何特点？

主要体现在以下三个方面：

1. 易用性：可视化的拖拽式任务流设计界面，配备了输入、组件、算法、模型、输出5类模块，灵活组合，可以做到无须任何编码而完成复杂机器学习任务。

2. 灵活性：用户既支持使用集成的机器学习算法，也能在业界的各种机器学习组件上提交自己算法。

3. 重点支持深度学习：目前支持TensorFlow，Caffe，Torch3种框架组件，后续会提供更多深度学习框架和针对性优化。

雷锋网：去年12月，腾讯开放了自研的大数据平台Angel，并且支持上述深度学习框架，那么Angel对DI-X是否有深度的优化？DI-X、Angel与此前的Mariana深度学习平台有何关系？

Angel是一个高纬度的机器学习框架，可以作为一个独立的机器学习组件，也可以作为PS-Service（参数服务器服务），支持Spark和其它深度学习框架。内部已经在试用了，开源之后也会发布到DI-X上面，让用户方便的使用和接入。

Mariana主要是一个针对GPU，基于Caffe进行了数据并行和模型并行能力升级的一个分布式GPU计算框架，也是可以在DI-X上运行的一个框架组件。我们在内部版本的TeslaML上，都有这个组件的存在，但是对外的话，我们计划是将它融合到Angel之中，作为一个整体开放。

雷锋网：工业界和学术界，DI-X会更侧重哪一块？

DI-X在腾讯内部服务一段时间了，大部分的场景都是比较大的数据量的，所以会适合工业界一些。对于学术界是否合适，我觉得要用户来评判。当然我们很欢迎学术界的朋友来试用。

雷锋网：相比其它平台，DI-X的优劣势是什么？在算法和模型的训练上有哪些突破？

DI-X目前刚刚推出，比起之前的产品有一些的时间距离，这是劣势，也是优势。相比之下，成熟度会弱一点，但是我们借鉴了之前产品的特点和经验，并做了一些改进和创新。尤其是算法的“小尾巴”设计上，和之前的产品设计都不太一样，在模型的收藏，使用，预测，部署上，都会有很多的优势，对深度学习更加的友好。

目前的各个深度学习组件，我们都是使用业界的开源最新版本，打通和COS的交互。后续在多机多卡的加速上，我们会借助Angel，提供更强的性能支持。

雷锋网：DI-X主要解决了哪些问题，它的应用场景有哪些？目前DI-X给腾讯云的业务做了哪些贡献？

DI-X解决的问题，主要是用户在腾讯云有了资源之后，可以降低开发和使用机器学习的门槛。假如你购买了GPU的计算集群，你需要到上面自己去安装各种组件，上传作业，调度运行，关注告警；但是有了DI-X，你只要点几下鼠标，对接上GPU资源后，就能把一个深度学习算法跑起来了，无论是你自己开发的还是业界现有的，这样的一站式平台，都能够降低算法工程师和数据科学家的门槛，他们不用操心很多工程上的细节，可以专心的调算法和参数，把模型训练好。

目前DI-X在腾讯内部，应用广泛，例如游戏流失率预测、用户标签传播以及广告点击行为预测，这些应用背后都有DI-X的支持。以用户行为预测为例，借助DI-X平台，可以方便的拖拽出一个BRNN Encoder模型（双向循环神经网络编码器），从用户自身和用户圈子好友的行为序列数据中提取出基础特征，进行栈式自编码（Stacked Auto-Encoder）模型的训练，充分利用RNN的模型特点，得到比常规模型更精准的行为预测效果。

对于腾讯云来说，DI-X是补上了重要的一环，让腾讯云的智能云能力，更加的完备，并充分发挥GPU计算集群的产品能力，是一对很好的搭档产品。

雷锋网：使用腾讯云上的DI-X，对企业以及开发者来说意味着什么？

使用DI-X，对于中小企业来说，某种程度上是开上了机器学习和人工智能的快车道，这个是我们的期望。不需要重复的搭建类似的系统，可以一键式的完成算法和模型的开发、调试、评估、部署和预测，快速的完成闭环，并对接生产系统。

未来，我们希望能够帮助到更多的AI创业公司和客户，降低他们的创业门槛，更快的专注于有创意的业务上，而无须担心底层。另外我们也希望能够将腾讯的成熟的数据，算法，模型开放出来，帮助到需要的小公司，让它们能够快速成长。

总结

当然，DI-X仍然不是一款成熟的产品，和现有的平台相比显然还有一定的差距，这对产品团队的技术水平是一次考验。Andy告诉雷锋网，在后续的版本当中，他们还会做一系列的优化：

首先，会把其它的机器学习组件补齐，包括Spark、xgBoost，甚至于Python、R，我们都会一一加上，让DI-X更加完整；

其次，要把深度学习的特性做进一步的产品优化，使得它能够在模型的超参数调节，效果可视化上，具有更好的竞争力。

毋庸置疑，人工智能基础服务已经成为互联网巨头必争之地，作为腾讯“云端大脑”的一部分，DI-X上线后的表现如何，我们拭目以待！

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/77732.html