页游运维的那些事…

导读 业界运维圈子的童鞋都有这么个共识,运维真是一种苦逼的生活了,不仅繁杂多样变幻多端,整个生态链涉及网络、系统、安全、数据库等战线极长极长,关键在其中某些环节,还有Ta在不断的搞事,搞事,搞事
1 概述

业界运维圈子的童鞋都有这么个共识,运维真是一种苦逼的生活了,不仅繁杂多样变幻多端,整个生态链涉及网络、系统、安全、数据库等战线极长极长,关键在其中某些环节,还有Ta在不断的搞事,搞事,搞事,(神马骨干波动、神马机房被攻击、神马开发误操作删库了)实在是苦的一逼,看惯了高大上的技术,今天我们转换下眼球,唠一唠基层大众农民工曾经苦涩的那些年—运维前一代的些许无奈及改进优化之路。

2 问题及优化

相信各位盆友在搬砖的过程中,肯定也遇到让你很蓝瘦香菇而又无能为力的事吧,比如咱们即将要阐述的主题,曾经一度让小学毕业的俺很受伤,也很懵逼,甚至痛苦到怀疑人生。下面我们正经的来瞅瞅,到底是啥玩意这么犀利。

2.1 流量攻击

2.1.1 DDos攻击

ddos攻击是最让人头痛的问题,大流量的DDOS攻击,会导致机房出口被堵,严重影响游戏业务正常访问,下面是被撸的一些情形:

页游运维的那些事… 页游运维的那些事…页游运维的那些事…页游运维的那些事…页游运维的那些事…

在两三年前,针对ddos攻击,我们只能依靠机房本身的综合实力,除此之外,没有其它好的办法,只有干瞪眼的份,好一点的机房会有一些措施,如:

  • 机房本身的硬件防火墙,可以清洗一定规模的异常流量;
  • 针对被经常攻击的项目,迁移至高防区域,通过一定的策略进行防护。

而现在,如果攻击者攻击的是自有项目服务器,咱们可以通过以下的方式进行尝试防护

  • 更改游戏架构,把前端入口统一单独出来,然后将统一入口架到含有攻防平台的cdn厂商,利用cdn的特征隐藏
  • 掉前端统一入口ip,同时前端在连接后端时进行加密处理,从而隐藏后端ip。
    通过中转,利用商业的防护平台第三方云盾,把异常流量进行清洗,如阿里云盾等。

页游运维的那些事…

当然,还有其它的方式,比如之前公众号提到的,安装轻量型DDos防护工具-Dshield,可能也可以起到一定的作用,但如果攻击流量规模达几十G,还是得架构、CDN分流、第三方云盾来着手。

2.2 海量开服带来运维挑战

2.2.1 更新/合服断线问题

更新合服操作方式老套,很low的在机器上面跑ssh并发脚本进行更新维护,若出现网络抖动,则更新合服操作等都会因此而中断,特别是如果刚好是进行数据库的处理时,那就比较尴尬了,将需要重新恢复数据然后再进行处理。

优化改进

使用salt替代原始的上机器跑并发脚本的方式,防止网络中断所引起的更新问题,当因网络抖动而重新连接机器时,可使用salt-run jobs 来查看任务执行情况,如:

页游运维的那些事…页游运维的那些事…

当然salt博大精深,这边介绍的只是其中的一个点,想进一步了解的盆友,可参加官网或者本公众号文章“saltstack的取经之路”,反正俺的感觉是自从用上了salt,发现腰不酸了,腿不疼了,搬砖也更有劲了,心情瞬间舒畅了许多,幸福感飙升呀,salt你值得拥有的。

2.2.2 批量装服

经历过页游时代的小伙伴应该有同感,当页游开服量逐渐增大时,会给运维效率带来了极大的挑战,传统的一个一个服部署的方式已经不能满足日常的运维要求,如下面此款游戏的日开服量达到70+,按传统的方式部署的话,莫非这是要通宵部署的节奏,什么,要通宵?感觉整个人都不好了,反正咱内心是拒绝的。

优化改进

为满足日益严峻的运维需求,我们优化了部署方式,总体思路为:通过采集数据,达到自动推荐服务器群集的功能,从而实现批量部署。

自动推荐群组的两个基本阀值是群组字段中的“最低内存”和“最低CPU”
自动推荐群组的功能:蓝海后台系统每天凌晨零点到客户端进行一次服务器性能数据采集,而客户端数据采集核心参考如下:

页游运维的那些事…页游运维的那些事…页游运维的那些事…

通过上面信息采集与分析,从而实现如下图样的批量部署界面图,部署完几十上百个区服也只是分分钟的事,动动鼠标就可以,So easy 。

页游运维的那些事…

2.2.3 域名重新解析

页游开服量逐渐增大,带来的必然是合服量也日常增大,如下图某游戏的日合服量将近80,如果是用A记录解析的域名,则在合服时将面临着大量域名重新解析的问题

页游运维的那些事…页游运维的那些事…

手动的人工解析,二十只手脚指一起忙活,估计也是累的够呛,可能还不能满足需求,咱们可是集网络、系统 、开发于一身的高质量高学历的“复合性人才”,怎么可以做这么low的事呢,那必须不行啊,这是不符合身份的

优化改进

开发自动化域名解析后台,实现海量域名自动化自助化的批量解析

页游运维的那些事…

页游运维的那些事…
除此之外,也可通过整改游戏架构的方式,统一前端入口,把所有前端集合在一台或者多台机器上面,当区服被合服时,源服的前端直接软链到目标服,从而实现访问源机会自动连接目标服的结果,规避掉重新解析域名,如下图:

当然还可以以cname 的方式解析,但cname方式同样是需要重新解析一遍,并且随着合服次数的增多,某目标服存在多次合服的可能,这样cname重数多了,可能会引起问题,不确定哟。

2.3 不可抗力的天朝网络

2.3.1 BGP转发

游戏玩家分布全国各地,而国内网络错综复杂,会存在因为种种网络问题导致部分玩家连不上游戏gateway的端口,像一些小运营商网络的玩家,因为本身网络运营商的原因,我们会不可控,眼睁睁的看着玩家流失。再加上时不时的南北骨干网络抽风一下,站在技术小白玩家的角度来说,会造成极差的体验,最后就是玩家会说:“怪我咯?肯定都是你们的错了。”

页游运维的那些事…

页游运维的那些事…

优化改进

选用优质网络的BGP机房部署中转服务器,结合客户端的逻辑判断处理,如果玩家连接不上游戏服gateway的端口则尝试通过中转机器进行重连,以增大游戏联通率。通过我们最新的定制策略,大概可以挽回10%左右用户的游戏体验。

页游运维的那些事…

2.3.2 APM实时地域性监控报警

以前没有APM时,当玩家登录异常报障,往往需要玩家配合帮忙收集信息才能定位问题,特别是手游时代更是繁琐,例如需要安装DNS&Ping软件啥的,加上大世界手游产品模块架构本身就相对复杂,玩家到游戏的整个逻辑交互过程不透明,若是发生区域性网络问题,那就更坑爹了,巨耗时间不说,吃力也不讨好呀。

优化改进

开发APM性能监控后台,把玩家连接游戏的整个逻辑交互过程数据化、透视化。
具体的思路为:跟手游客户端研发协商,把游戏内部的逻辑交互埋点打日志,通过接口统一上报至APM后台,APM后台主要做web可视化呈现。这样既能准确、有效地定位异常问题,也能为研发、运维、运营提供优化指标。

页游运维的那些事…页游运维的那些事…页游运维的那些事…页游运维的那些事…

3 总结

上述问题及优化来源于我们的“错题本”的归纳与总结,都是曾经的血泪史,若对你产生点点作用,请不吝点赞打赏,哈哈,最后 我们走的可能不快,但我们一直在进步,just do it,肯定有一份收获属于你。干了这碗毒鸡汤,继续搬砖了,哎妈,骨干又抽了……

原文来自微信公众号:运维军团

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/113354.html

(0)
上一篇 2021年8月27日
下一篇 2021年8月27日

相关推荐

发表回复

登录后才能评论