问题描述
某局点集群触发只读保护,业务无法写入,经过排查确认是存在单点磁盘使用率超过90%的情况,占用文件较大是DN 的xlog 文件
处理过程
1、需要紧急恢复,建议把只读阈值临时从90%调整到93%
gs_guc set -Z cmserver -N all -I all -c “datastorage_threshold_value_check=93”

2、修改参数后在810 之前的版本是cmserver控制只读阈值,根据集群状态需要确认主备cmserver,依次kill -9 cm_server备实例和主实例


3、目前业务恢复正常,根据已知场景去排查复制槽,restart_lsn有两个就不正常明显不符合

4、去判断是否有xlog 延迟文件导致xlog 占用较大,delay_xlog_recycle标志文件未存在

5、最后去排查DN 日志信息打印,发现有大量的RM 11的打印

6、出现这个RM11问题是因为索引文件损坏,大概率因为磁盘坏块,redo的时候执行到那个坏块执行不下去,对此实例进行全量build 后已经恢复

解决方案
对此实例进行全量build 后已经恢复
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316234.html