阿里云道哥解密:保卫“双十一”的技术牛在哪里 | 雷锋网公开课

有一个节日,是女人的狂欢日,也是女人背后男人的流泪日;

有一种冲动的激情,叫“买买买”!

这群甚至被誉为马云背后的女人,撑起了电子商务的一片天。

但是,你一定不知道的是,马云背后还有一个男人,在为这个盛大的购物狂欢节保驾护航。

这个男人,就是阿里云云盾的负责人吴翰清,人称“道哥”。

他是黑客道哥,也是“道哥的黑板报”的“文艺网红”。保卫阿里云这个中国 35% 的网站都坐落其上的云计算平台和上面的居民,道哥觉得自己守土有责,不容有失。

尤其对于“双十一”这个盛大的购物节,亿万人同时涌进“一扇大门”,阿里云到底应该怎么应对?本期硬创公开课上,雷锋网(公众号:雷锋网)献上双十一最强攻略——道哥聊了聊他们干的事。

阿里云道哥解密:保卫“双十一”的技术牛在哪里 | 雷锋网公开课

嘉宾介绍

吴翰清 阿里云首席安全研究员;阿里云云盾负责人

2000年开始研究安全技术,长期活跃在中国的安全社区,在安全行业中有很大的影响力。2005年加入阿里巴巴,是阿里安全的早期建设者。陆续设计了阿里巴巴、淘宝、支付宝、阿里云的应用安全体系。2012年到2014年成为安全宝合伙人,开始创业,致力于为客户提供更好的云安全产品和服务。2014年重回阿里,负责阿里云云盾。著有《白帽子讲Web安全》一书,并运营个人微信/知乎公众账号:道哥的黑板报。

阿里云道哥解密:保卫“双十一”的技术牛在哪里 | 雷锋网公开课

问答精华回顾

一、“双十一”背后的云是什么云?

1.请给我们介绍下保障剁手党们“双十一”能尽情买买买的“幕后英雄”阿里云和阿里云云盾。

道哥:阿里云的愿景是提供全球70%的计算能力,做的事情囊括了传统意义上的云计算,大数据、中间件和安全。

阿里云云盾是为用户安全推出的安全产品与服务。除了基础攻防安全外,也提供全栈的安全解决方案。目前云盾已经有十多个安全产品,涉及网络安全、服务器安全、应用安全、业务安全的各个方面。云盾的增长非常快,目前保护了全国超过37%的网站,防护中国互联网抵御每天50%的大流量DDoS攻击,真正意义上验证了 SaaS 在安全行业可行性。

2.阿里云的业务安全体系到底有哪些?哪些是重点保护对象?

道哥:阿里云面向的客户包括大中小规模的企业,来自各个行业。因为做的是基础设施,希望云计算能成为水电煤一样的公共服务。在用电时,电厂其实不区分客户的行业,云计算也应该一样,所以云盾面向全行业,不区分客户大小。但是,根据客户的需求,不同的客户希望有不同的服务标准,这是可以理解的,就像用电也有分普通的居民用电,和工业用电一样。只是服务标准的不同,产品还是同样的东西。

3.“守卫者”阿里云保护了别人,谁来保护它?

道哥:阿里云自身的安全保障,也使用云盾同样的技术。我们的技术都是在内部用得很成熟后,再进行产品化,给客户使用。所以,产品特别注重实际使用效果。至于阿里云自身的安全体系,我们非常重视“红蓝军”对抗的思想,会广泛邀请业界白帽子为产品做安全测试。在这个过程中,我们会依赖于态势感知提供的「可见」的能力,感知每一次攻击测试行为,最终得到的效果是整体安全事件数、漏洞数的收敛。所有这些都可以在云盾的产品体系中,比如,先知情报、态势感知等找到对应的产品和服务。

4.云上的客户,保卫的难度在哪?

道哥:云计算是大规模计算,任何事务只要上了大规模,就会变得复杂和难于处理,但这也是创新的机会。大规模计算下的一个典型特点是「小概率事件变为常态」。比如一个正规的网站,一年可能都不会经历一次 DDoS 攻击,但是在阿里云上,我们每天都要防御数千次DDoS攻击。在这样的攻击量级下,靠人工处理已经变得不现实。这倒逼我们进行技术创新,所以我们做到DDoS防御的全自动值守,不需要任何人工参与。任何一次 DDoS 攻击都可以在1秒内完成从检测到响应到防御的整个过程。

二、云盾的独门绝技

1.总是提到云盾的态势感知,这究竟是个神马神奇的技术?你们的大数据分析模型来源是?依据什么建立的模型?

道哥:态势感知区别于传统的 SIEM ,有两个非常关键的点。现在很多安全厂商都开始做态势感知,但往往只是把 SIEM 换了个名字,这是种误区。

态势感知最早在安全行业的应用,是我在 2015 年 7 月的阿里安全峰会上正式发布云盾态势感知产品后提出来的。后来到了 2016 年的 4月 习总书记的讲话里,也明确了要重视网络安全的态势感知。所以态势感知赋能的 Visibility,是整个安全的基础。

态势感知有两个重要的特征,区别于其他安全产品。第一个是要基于原始的数据,要充分尊重原始的数据。目前云盾每天分析超过 500T 的增量数据,存量数据的量在 100P 以上。这让我们能够从原始数据中分析出第一手的信息,而不是从一些第三方安全设备里获取第二手资料。最有价值的信息都是存在于原始数据里的,当我们的算法更新后,我们仍然能基于过去的原始数据计算出新的价值。

2.云盾强调全链路监控预警,请科普一下如何实现?

道哥:我们从各个纬度的 sensor 收取数据,包括网络、服务器、数据库,也包括四层和七层的数据,也包括操作日志和系统日志。因为今天云盾是全链路部署的,既包括来自于全网的扫描器,也包括流量分析、应用层的数据分析,同时在服务器还有 Agent ,所以我们能从不同的视角观测到不同的现象。同时阿里云还提供各个纬度的 API ,通过 RAM 授权后,我们可以调用云计算本身提供的一些数据。把所有的这些数据整合在一起,做出综合的诊断。

3.云盾还在研发哪些新的黑科技?希望达到什么目标?

道哥:我们希望把阿里云强大的计算能力充分的利用起来,应用在我们的安全领域。我们知道因为计算能力的解放,带给了深度学习和人工智能非常大的机会。

比如,我们正在研究如何让一个计算机系统,来代替安全专家的所有人工工作。包括所有的评估结果分析、策略维护、响应等,都可以通过机器自动来完成,这些需要高级思维和经验的工作,在过去都是由专家人工完成。但是,我们认为由机器来代替是可行的,甚至在某些时候机器比人会做得更好。

这是一个很浩大的工程,我们正在逐步努力。我们把未来的这个新的人工智能,叫做「云小盾」,我希望他会是我们的一个明星员工。

三、靠什么守卫“双十一”?

1.“双十一”马上就要来了,是否可以科普一下阿里云需要为“双十一”提供哪些方面的基础服务和保障?这些“双十一”剁手党能感受到吗?

道哥:实际上安全带有保障属性,和运维有点类似,所以做得好的安全往往是感受不到的。就像此前保护G20峰会一样,过去几年的“双十一”保障在安全上都平稳度过。“双十一”的挑战来自于海量访问请求,导致很多解决方案在这样的场景下都会极具挑战性。

比如,在“双十一”,我们需要从全国,以及海外的数个可用区,将每秒的流量进行集中统计和分析,进行安全检测和响应。这意味着跨地域的TB级流量分析挑战非常大,同时对稳定性和实时性要求都非常高,如果其中有一分钟失去检测能力,很可能就会对后端的服务器带来巨大的压力,从而导致“双十一”整体的失败,所以“双十一”是一场大考。

其次,在去年的“双十一”,我们首次应用了 WAF 技术,今年将继续使用,也就是说“双十一”的每一个请求,都会经过 WAF 的安全检测,这需要非常强的检测能力和可以弹性伸缩的技术架构。WAF支持同时下发超过100万条策略,这也是在其他的安全设备上没有看到过的能力。因为“双十一”独特的场景,造就了我们的这些技术突破。

最后,也许消费者们能感受到我们存在的一点,在于在“双十一”的过程中,我们采用了一种「无损限流」的技术。因为谁也无法预测“双十一”的洪峰会有多大,后端准备再多的服务器也许都不够,所以在安全控制上,对于超出系统负载的请求,会采用一种「排队机制」,但这种机制不会drop掉你的连接,而是会让你等待,直到轮到系统处理你的请求。这有点像去苹果店排队买iphone,大家不是一拥而上,而是非常有序的排队等待。

2.万一有突发情况,阿里云有怎样的应急响应方案?尤其是“双十一”,发生点什么事情岂不是大家都不能买买买了?

道哥:我们有专业的应急响应团队来处理所有的紧急情况,包括产品的漏洞、云上的安全事件、外部来源报告的一些问题,以及客户投诉的一些严重case。我们会在事前广泛的收集所有信息,在事中有一个值班长的机制,来驱动所有相关团队进行响应,在最后还会进行效果的观察和复盘。

在云计算上,经常会面临一些大的安全漏洞,可能影响到数十万的用户。我们能观测到一些高级的威胁是如何蔓延和传播的,在内部称之为「安全疫情」。事实上如果能提前一个小时进行止血,我们就可能会挽救数万用户的损失。所以,我们的应急响应团队是在和黑客赛跑。而所有的应急响应,前提是要能被我们观测到,这是态势感知的能力。所以,态势感知提供的「看见」的能力是我们的基础。

在“双十一”,我们有专门的保障小组,他们针对各种安全紧急情况,设计了几十种预案。同时在“双十一”前的几个月,就开始不断进行演练,以保证这些预案是有效的。在整个“双十一”中,都会进行7*24小时的值守。

3.为了大家的买买买,你们也是很用心。是否能举例说明下以前“双十一”保障遇到的紧急事件,以及云盾团队如何化险为夷的?

道哥:去年“双十一”,很多黄牛来秒杀促销商品。我们会通过威胁情报,提前分析全国黄牛的大概分布,以及他们使用的工具和资源。在“双十一”前,我们会突击下发策略,在主站的关键流量上 block 掉这些黄牛的工具和资源,保障正常的商家服务。我们在风控上的策略,对抗是非常频繁的,经常是一个算法用半个小时,就要换新的了。

4.听说今年的“双十一”加入了直播业务,看上去牛牛哒,针对这样的特色,阿里云需要做点特殊服务保障吗?

道哥:直播主要有两个安全问题,一个是被 DDoS 攻击导致直播中断,那么前期的大量市场推广可能就白做了。所以直播期间需要准备好 DDoS 的预案,同时网络质量上还不能有抖动,影响到直播的效果;第二,很多直播还提供弹幕的功能,可能会有些违规、违禁的信息会出现在弹幕里,造成很不好的影响。所以,直播的 UGC 内容需要进行检测。云盾的绿网产品今天就是提供这个检测与拦截服务的。

5.麻烦介绍一下阿里云是怎么搞定“双十一”中的一个威胁的?

道哥:“双十一”某些手机厂商会搞一些很大的活动进行秒杀,会吸引大量的黄牛党来抢购屯货,扰乱市场秩序。所以我们事先会通过威胁情报,以及结合一些黑产分析,摸清楚大概的脉络。这是由专门的情报团队和数据分析团队完成的。在“双十一”保障的过程中,我们会把这些情报应用在 WAF 上,在关键流程中进行拦截。同时,坏人还会经常改变攻击来源、攻击工具,与我们的策略进行对抗。因此,我们还必须实时观测策略的有效性,这些由保障团队和数据分析团队完成。

6.除了阿里巴巴集团自身的业务,还有哪些同样在阿里云上的客户业务会在双十一阶段业务暴增,被翻牌子呢?

道哥:阿里巴巴是一个大的生态系统。整个“双十一”除了阿里自身的天猫、支付宝会带来大流量增长外,最直接的要迎接洪峰压力的,还有快递行业,以及支撑电商的 ISV 。 

我们的 Aliexpress 是国际的 C2C 业务,也是俄罗斯的第一大电商,曾经因为一次促销搞垮了整个俄罗斯邮政。类似的问题也在中国发生,这也是阿里巴巴集团做菜鸟物流的原因。我们希望能够帮助优化全球的物流体系。

同时淘宝、天猫的这么多商家,他们在“双十一”的洪峰要处理的订单可能是平时的几十倍,这对他们的 ISV (比如 CRM 系统、库存管理系统、评价系统等)造成了巨大的压力。阿里的聚石塔,就是把这些 ISV 放到了阿里云上,提供更强的安全保护。事实上,阿里的“双十一”,90% 的订单最终会流向这些 ISV 。

今年云盾会和聚石塔合作,对这些电商 ISV 的安全进行整体的保障服务,保证“双十一”的平稳度过。

7.“双十一”就要来了,有什么话想和无数剁手党说的吗?

道哥:“双十一”是中国的奇迹,也是世界的奇迹。“双十一”每一笔订单的背后,都是对大规模计算的消耗,都是对大数据应用、安全技术的一次验证。剁手党们的狂欢,造就了全球最顶级的技术盛宴。这不仅仅是商业的成功,也是技术在一次次拓展自己的边界。最终是我们一起共建了世界的未来。我们因你们而存在。

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/82705.html

(0)
上一篇 2021年8月12日 15:14
下一篇 2021年8月12日 15:14

相关推荐

发表回复

登录后才能评论