关于国产项目Apache Kylin 发展历程及背后的那些事

导读	2015年12月8日，Apache 基金会宣布 Apache Kylin 从 Apache 孵化器项目毕业，正式升级为顶级项目。从最初开源到成为 Apache 顶级项目，Apache Kylin 只花了13个月，而且它也是第一个由中国团队完整贡献到 Apache 的顶级项目。

Apache Kylin 现状如何?背后有怎样的技术团队?接下来又会有什么规划和动作?本期，来自 Kyligence 的联合创始人兼CTO、Apache Kylin 联合创建者李扬，跟大家分享 Apache Kylin 的开源历程、发展方向以及背后团队的故事。

李扬：Apache Kylin 发展历程及背后的那些事

李扬，Kyligence 联合创始人兼 CTO，Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人。专注于大数据分析、并行计算、数据索引、关系数学、近似算法、压缩算法等前沿技术。曾任 eBay 全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人。

【访谈实录】

1)Kylin 的发展迅速的关键点

答：其实我觉得开源与否并不重要，一个项目成长快、使用度广的关键之处，是在于能不能解决实际问题。Kylin 解决了一个很重要的问题就是：大数据怎么能够高速、高并发的查询，这才是关键所在。Kylin 对这个问题的解决，打开了很多可能。比如传统的一些数据应用，原本无法对接大数据，因为大数据一查询可能需要5分钟、10分钟甚至更久，用户等不及都走了。有 Kylin 以后则打开了一大块新的领域，这是一种突破，也是 Kylin 的价值，是它能够很快发展的原因。

2)Kylin 发展现状如何?

答：我觉得现在发展挺不错的，国内外的开源产品应用很多，而且都是大型企业在使用，像百度、京东、网易等。现在还看到一个新趋势，它正在往传统企业逐渐渗透。互联网公司本身技术比较强，用得早也是应该的。传统企业技术不是那么强的，对这种易用的大数据技术，也渐渐应用起来，像移动、电信、金融、银行等等，都有看到渗透，这是很好的现象。

Kyligence 作为一家商业公司来说，目前在国外的市场推广还处于初期阶段，我们对国外的扶持和贡献还不是很多。国外有一些集成商以及一些技术比较好的企业，会自己拿着 Kylin 使用，也常常会来 Kylin 社区做一些交流。

3)对流式处理进行了讲解是 Kylin 的新特性吗?

答：应该算是新特性，kylin streaming 流式处理其实是大家一直以来呼吁 kylin 支持的特性。在之前1.5的版本里面有个实验性的实现，相当于是个半成品，还没做到最好。现在介绍的是在1.6版本里面会正式推出的流式处理功能，我们有做一些大规模的测试，验证了它是一个比较可靠的功能后才推出来。

4)Kylin 目前的版本更新周期是怎么样的?

答：这个很难保证，因为开源软件，都是看志愿者贡献，我们一般努力做到1-2个月发一次版本。其实现在回过头去看，之前也差不多就是这个时间间隔。

5)能简单说下 Kylin 目前的技术团队构成吗?

答：Kylin 的技术团队最开始只有4、5个人，经过逐渐壮大，目前的主力主要是来自 Kyligence，大概有10来个，此外还有来自京东、美团、网易和一些国外的贡献者。

6)Kylin 团队的氛围和文化如何?

答：我们的团队其实是非常轻松的。有些开源社区在开发流程方面可能会比较严谨，比如说代码不能随便提交，需要先提一个 pacth ，然后有好几个 review，全部通过以后才可以提交。Kylin 社区是比较松散的，我们鼓励把更多的自由和创造力交给开发人员。当你有一个 pacth 提交上来，只要你有权限就可以直接合并，并放入代码库。等到事后有时间的话，可能会再来抽验一些进行 review 。这个步骤和别人是反过来的。

这样难免会出现一些错误，但这就是一种文化，没有说好或者不好。至于是鼓励大家主动性多一些，还是管理更重要一些，还是得看各自的情况。

7) Kylin 接下来的发展方向如何?

答：其实还挺多的，主要有两个。一个是近实时的大数据分析我们基本上已经完成，在1.6版本里的 streaming 大概能做到分钟级别，也就是说2-5分钟的延迟，就能看到最新的数据。但在这个基础上面，其实还能做到更好，把延迟缩短到秒级别，实现真正的实时，这是我们往后的一个方向。

还有一个是支持数据模型的拓展。以前 Kylin 支持的数据模型叫做星型模型，是比较受限的模型，能解决大概70%的问题。但是在和实际用户的讨论当中发现，很多实际问题他们会需要更复杂的模型，也就是雪花模型。所以我们接下来会做对雪花模型的支持。这个实现之后，Kylin 基本上可以和传统的数据仓库的级别来进行对比，不管关系模型有多复杂，Kylin 都可以将它拿进来，提供快速、高并发的查询能力。

8)目前 Kylin 开发者社区的活跃度如何?

答：我们一直说评估一个开发者社区是不是活跃，在 Apache 社区就看它的邮件列表里面的活跃度。Kylin 社区的邮件列表活跃度和 Spark 差不多，其实是挺活跃的。

原创文章，作者：3628473679，如若转载，请注明出处：https://blog.ytso.com/210700.html

关于国产项目Apache Kylin 发展历程及背后的那些事

相关推荐

发表回复