gaussdb 200 DN xlog 占用大导致只读处理

问题描述

某局点集群触发只读保护,业务无法写入,经过排查确认是存在单点磁盘使用率超过90%的情况,占用文件较大是DN 的xlog 文件

处理过程

1、需要紧急恢复,建议把只读阈值临时从90%调整到93%

gs_guc set -Z cmserver -N all -I all -c “datastorage_threshold_value_check=93”

gaussdb 200 DN xlog 占用大导致只读处理

2、修改参数后在810 之前的版本是cmserver控制只读阈值,根据集群状态需要确认主备cmserver,依次kill -9 cm_server备实例和主实例

gaussdb 200 DN xlog 占用大导致只读处理

gaussdb 200 DN xlog 占用大导致只读处理

3、目前业务恢复正常,根据已知场景去排查复制槽,restart_lsn有两个就不正常明显不符合

gaussdb 200 DN xlog 占用大导致只读处理

4、去判断是否有xlog 延迟文件导致xlog 占用较大,delay_xlog_recycle标志文件未存在

gaussdb 200 DN xlog 占用大导致只读处理

5、最后去排查DN 日志信息打印,发现有大量的RM 11的打印

gaussdb 200 DN xlog 占用大导致只读处理

6、出现这个RM11问题是因为索引文件损坏,大概率因为磁盘坏块,redo的时候执行到那个坏块执行不下去,对此实例进行全量build 后已经恢复

gaussdb 200 DN xlog 占用大导致只读处理

 

解决方案

对此实例进行全量build 后已经恢复

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316234.html

(0)
上一篇 2025年10月28日 14:12
下一篇 2025年10月28日 14:22

相关推荐

发表回复

登录后才能评论