现象:某局点FIM上反复报37031 CM_AGENT连接数据库失败,查看集群状态降级,仅一个备DN6044一直在starting

可以看到pg_log日志里有报no space left on device
去看查看磁盘使用率df -h使用率不到50%,df -i查看inode,也不到50%。
日志里报错是不能创建固定名称的bcm文件,
我们手动创建同名空文件,也报相同错误
如果尝试建其他名称文件,则不报错创建成功,
怀疑触发了文件系统的问题,
现场咨询,发现文件系统不是推荐的xfs而是ext4.

在messages里也可以看到当时有创建index满的错误
https://www.codenong.com/cs106691591/
参照此链接,明确是ext4文件系统哈系树索引满的情况
查看该数据目录的文件数量,可以看到一共1500W,

这种情况,需要将备DN停止,cm_ctl stop -n 集群状态备DN的主机ID号 -D 备DN数据目录
停止后,业务单主运行,需要让客户对业务表进行整理,文件数关联表数量,分区数,列存字段数等等,
主DN小文件数量下降后,删除备DN的数据目录(删除操作需谨慎,建议联系华为工程师确认)
对该备DN全量build
cm_ctl build -n 集群状态备DN的主机ID号 -D 备DN数据目录 -b full -t 10800000
build完备DN会自动拉起
总结:文件系统MPPDB推荐使用XFS,业务侧应控制小文件数
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316792.html