实时流式计算引擎 Blink 在阿里巴巴的经典案例

大数据的价值正在慢慢的改变整个社会。淘宝拥有十分巨大的海量数据,通过实时数据分析和统计反馈,能为社会贡献更多价值。那么淘宝是通过什么手段来分析数据的呢?本文将通过阿里巴巴的新一代流式计算引擎Blink的真实案例,让大家对 Blink 的架构原理,使用等更有深刻的理解。

Blink在阿里巴巴的经典案例

Blink 在阿里巴巴的使用案例有很多,下面我将举例几个最经典的,共大家学习!

实时A/B Test

A/B Test的目标就是通过实时数据分析和统计反馈,不断调整在线系统的算法模型,自动适应到最佳效果, A/B Test数据收集和处理流程大致如下图所示,Blink任务从线上日志实时同步用户行为数据,然后解析、过滤、统计,最终将各项统计指标写入OLAP系统中,让算法或者运营人员可以实时看到线上实际效果,从而合理调整配置各种模型,逐步达到最佳效果。

Blink 实时数据分析和统计反馈

商品数索引构建流程

淘宝的搜索引擎是用户在淘宝购物的最主要入口,淘宝的商品数据处理和索引构建流程大致如下图所示,淘宝的商品库都存储的阿里巴巴的MySQL集群中,搜索的数据处理流程需要从MySQL将数据同步到搜索引擎后台的HBase存储中(类似:Google都将网页抓取到BigTable中),然后进行各种业务逻辑处理和索引构建,最终将索引推送到在线搜索引擎中提供搜索服务。

由于淘宝的商品搜索引擎需要在每天白天不断进行实时商品更新,同时晚上还需要一套额外的全量商品更新流程,因此基于Blink的统一计算模型,流式计算和批量计算可以使用一套用户逻辑代码完成。

淘宝的 商品数索引构建流程

Porsche – 在线机器学习平台

在线机器学习平台利用了Blink强大的实时计算能力,能够实时的对海量用户和商品行为数据进行流式特征提取以及训练学习,并将实时更新的特征和模型实时同步给在线的搜索和推荐引擎,实现个性化搜索和推荐,数据流程如下图所示:

基于 Blink 的Porsche – 在线机器学习平台

Blink技术架构

Blink技术架构

从Blink的架构图中可以看出,Blink在内部模块组成上和Flink是有着非常清晰的界限的,绿色部分是和Flink共享的基础核心框架,Blink在这些框架、协议和接口上的改进都会回馈给社区,保证兼容性。

但蓝色部分是扩展层,例如:资源管理,状态存储,运维监控、Debug工具,输入输出层等,Blink都会根据阿里巴巴技术生态和业务场景进行定制开发,使得Blink能够在和Flink共享基础内核和生态的前提下,依然能够灵活支持阿里巴巴自身的场景需求。

这种架构设计,将之前开源技术的开放通用化和企业需要定制需求的矛盾进行了解耦,使得我们既可以和开源社区密切合作,享受开源的红利,同时也可以根据阿里巴巴自身需求进行高度定制和优化,不会受制于外部不可控因素。

Blink的未来

目前Blink已经在阿里巴巴内部达成共识,成为阿里巴巴统一的实时计算引擎,接下来我们将继续加大在Blink技术发展上的投入,并与开源社区更加密切的合作,突进流式计算的发展。应用场景上,一方面会继续扩大计算规模,并提推出内部统一实时计算服务,统一支持阿里内部的所有实时计算业务;另一方面也将会通过阿里云的公有云和专有云渠道向外界输出我们的实时计算能力,让更多行业和用户也都能享受到阿里巴巴实时计算的技术成果。

总之,Blink的实时计算之路刚刚开启,未来必将有更大的挑战和机遇,也非常欢迎各位对实时计算有兴趣的技术爱好者以及高校学子们投身到这件开创新一代计算平台的事情上来。

实时流式计算引擎 Blink 在阿里巴巴的经典案例

: » 实时流式计算引擎 Blink 在阿里巴巴的经典案例

原创文章,作者:bd101bd101,如若转载,请注明出处:https://blog.ytso.com/tech/aiops/252514.html

(0)
上一篇 2022年5月4日 11:42
下一篇 2022年5月4日 11:45

相关推荐

发表回复

登录后才能评论