GBase 8a技术分享:排查由磁盘坏道引起的性能异常及sql报错

概述

服务器的各个部件中,磁盘是较易损坏的部分,硬盘的使用寿命主要受到磁盘磨损和磁头老化等因素的影响。一般来说,一块质量合格的机械硬盘,在正常使用条件下,其寿命大约在8-10年左右。在日常的运维中,遇到过因磁盘损坏导致的故障。

排查过程

因磁盘有坏道,导致有个别sql报错,错误显示“Checksum error. Data file is broken”,188节点有文件损坏。

GBase 8a技术分享:排查由磁盘坏道引起的性能异常及sql报错

另外,从每分钟定时监控各data节点任务数来看,该节点的任务数比其他节点任务数的10倍左右,明显有性能瓶颈,初步怀疑硬件有故障。

GBase 8a技术分享:排查由磁盘坏道引起的性能异常及sql报错

用检查磁盘坏道的命令,storcli64 -PDList -aALL |grep -iE “slot|error”,发现磁盘有少量error。media error count在几十或小几百,问题还不大。如果达到几千,磁盘距离failed就不远了,界时可能就只能做节点替换。

GBase 8a技术分享:排查由磁盘坏道引起的性能异常及sql报错

因为GBase集群节点是10块SAS盘做的RAID50,允许进行热插拨更换磁盘,系统会从RAID内部的校验信息中恢复数据。通过命令storcli64 /call/eall/sall show rebuild,可以查看磁盘的RAID同步进度。

GBase 8a技术分享:排查由磁盘坏道引起的性能异常及sql报错

原创文章,作者:kirin,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/317709.html

(0)
上一篇 1天前
下一篇 1天前

相关推荐

发表回复

登录后才能评论