导读 | 2015年12月8日,Apache 基金会宣布 Apache Kylin 从 Apache 孵化器项目毕业,正式升级为顶级项目。从最初开源到成为 Apache 顶级项目,Apache Kylin 只花了13个月,而且它也是第一个由中国团队完整贡献到 Apache 的顶级项目。 |
Apache Kylin 现状如何?背后有怎样的技术团队?接下来又会有什么规划和动作?本期,来自 Kyligence 的联合创始人兼CTO、Apache Kylin 联合创建者李扬,跟大家分享 Apache Kylin 的开源历程、发展方向以及背后团队的故事。
李扬,Kyligence 联合创始人兼 CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人。专注于大数据分析、并行计算、数据索引、关系数学、近似算法、压缩算法等前沿技术。曾任 eBay 全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人。
答:其实我觉得开源与否并不重要,一个项目成长快、使用度广的关键之处,是在于能不能解决实际问题。Kylin 解决了一个很重要的问题就是:大数据怎么能够高速、高并发的查询,这才是关键所在。Kylin 对这个问题的解决,打开了很多可能。比如传统的一些数据应用,原本无法对接大数据,因为大数据一查询可能需要5分钟、10分钟甚至更久,用户等不及都走了。有 Kylin 以后则打开了一大块新的领域,这是一种突破,也是 Kylin 的价值,是它能够很快发展的原因。
答:我觉得现在发展挺不错的,国内外的开源产品应用很多,而且都是大型企业在使用,像百度、京东、网易等。现在还看到一个新趋势,它正在往传统企业逐渐渗透。互联网公司本身技术比较强,用得早也是应该的。传统企业技术不是那么强的,对这种易用的大数据技术,也渐渐应用起来,像移动、电信、金融、银行等等,都有看到渗透,这是很好的现象。
Kyligence 作为一家商业公司来说,目前在国外的市场推广还处于初期阶段,我们对国外的扶持和贡献还不是很多。国外有一些集成商以及一些技术比较好的企业,会自己拿着 Kylin 使用,也常常会来 Kylin 社区做一些交流。
答:应该算是新特性,kylin streaming 流式处理其实是大家一直以来呼吁 kylin 支持的特性。在之前1.5的版本里面有个实验性的实现,相当于是个半成品,还没做到最好。现在介绍的是在1.6版本里面会正式推出的流式处理功能,我们有做一些大规模的测试,验证了它是一个比较可靠的功能后才推出来。
答:这个很难保证,因为开源软件,都是看志愿者贡献,我们一般努力做到1-2个月发一次版本。其实现在回过头去看,之前也差不多就是这个时间间隔。
答:Kylin 的技术团队最开始只有4、5个人,经过逐渐壮大,目前的主力主要是来自 Kyligence,大概有10来个,此外还有来自京东、美团、网易和一些国外的贡献者。
答:我们的团队其实是非常轻松的。有些开源社区在开发流程方面可能会比较严谨,比如说代码不能随便提交,需要先提一个 pacth ,然后有好几个 review,全部通过以后才可以提交。Kylin 社区是比较松散的,我们鼓励把更多的自由和创造力交给开发人员。当你有一个 pacth 提交上来,只要你有权限就可以直接合并,并放入代码库。等到事后有时间的话,可能会再来抽验一些进行 review 。这个步骤和别人是反过来的。
这样难免会出现一些错误,但这就是一种文化,没有说好或者不好。至于是鼓励大家主动性多一些,还是管理更重要一些,还是得看各自的情况。
答:其实还挺多的,主要有两个。一个是近实时的大数据分析我们基本上已经完成,在1.6版本里的 streaming 大概能做到分钟级别,也就是说2-5分钟的延迟,就能看到最新的数据。但在这个基础上面,其实还能做到更好,把延迟缩短到秒级别,实现真正的实时,这是我们往后的一个方向。
还有一个是支持数据模型的拓展。以前 Kylin 支持的数据模型叫做星型模型,是比较受限的模型,能解决大概70%的问题。但是在和实际用户的讨论当中发现,很多实际问题他们会需要更复杂的模型,也就是雪花模型。所以我们接下来会做对雪花模型的支持。这个实现之后,Kylin 基本上可以和传统的数据仓库的级别来进行对比,不管关系模型有多复杂,Kylin 都可以将它拿进来,提供快速、高并发的查询能力。
答:我们一直说评估一个开发者社区是不是活跃,在 Apache 社区就看它的邮件列表里面的活跃度。Kylin 社区的邮件列表活跃度和 Spark 差不多,其实是挺活跃的。
原创文章,作者:3628473679,如若转载,请注明出处:https://blog.ytso.com/210700.html