背锅侠型运维人员在遇到问题故障时,往往没有思路无从下手,到处求助。问题往往也解决得很慢,甚至解决不了。皮球踢给老大,老大被迫亲自解决或者找技术顾问。此类运维人员的工作往往没有规范和流程,也没有体系化方法。想到哪做到哪,因此也容易发生不少低级错误。例如:不做备份或备份了但不可用,目录文件权限777,没有任何运维体系以及方法论……
中级:闪修侠型运维
进阶到闪修侠型运维,说明你已经上道了。毕竟,一个合格运维的基本修养就是:当问题发生了,你能快速解决。
事实上,能做到闪修侠型的中级运维人员,需要很多前期沉淀。如果不做准备,很多时候问题发生了也是难以快速解决的,真正企业里迅速解决问题的人,都是基于对过去业务历史趋势的了解以及对业务的熟悉程度的。合格企业运维有两大核心:首先是数据安全,其次是7X24优质服务,二者缺一不可。不过,再厉害的问题解决能力,也不如问题不发生更厉害。这也是中级运维和高级运维的差异。
高级:未雨绸缪的核心运维人员
什么是未雨绸缪?就是在问题发生前把问题隐患解决掉,在日常排查隐患,防患于未然,而这也是核心运维人员的必备本钱。
对于企业的运维人员来说,由内部人员自己带来的故障或潜在故障至少占据总故障的50%。因此,能否减少这部分故障,直接决定运维人员是否做黑锅侠。这里可以给出一些有效的规避方法:
1)科学的生产线配置变更的流程和制度
例如:通过jira做运维业务变更管理、svn管理变更内容。
2)规范代码发布的流程
例如:自动化、或平台化上线就是控制流程的手段,人工就容易出错。
例如:通过jira做运维业务变更管理、svn管理变更内容。
3)运维部署配置及优化规范、专业、科学。
除了企业内部带来的鼓掌,企业外部的不可控因素会造成另外50%的故障。
企业外部不可控因素是指非技术部、运维部带来的故障。例如:市场大量推广期带来服务器宕机、恶意攻击引起的业务故障等。这里同样给出几点规避方法:1)监控各个指标(运维层面、业务层面等)的历史趋势,努力对问题提前预判;2)保持企业内部信息沟通通畅,与开发、市场、PR,产品等部门多沟通,在有大流量引入之前做好准备;3)做好内外安全防范;
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/113388.html