DN长时间处于starting状态–(文件系统问题)

现象:某局点FIM上反复报37031 CM_AGENT连接数据库失败,查看集群状态降级,仅一个备DN6044一直在starting

20210701154746_73005.png

可以看到pg_log日志里有报no space left on device

去看查看磁盘使用率df -h使用率不到50%,df -i查看inode,也不到50%。

日志里报错是不能创建固定名称的bcm文件,

我们手动创建同名空文件,也报相同错误

如果尝试建其他名称文件,则不报错创建成功,

怀疑触发了文件系统的问题,

现场咨询,发现文件系统不是推荐的xfs而是ext4.

20210701155731_49471.png

在messages里也可以看到当时有创建index满的错误

https://www.codenong.com/cs106691591/

参照此链接,明确是ext4文件系统哈系树索引满的情况

查看该数据目录的文件数量,可以看到一共1500W,

20210701155606_73636.png

这种情况,需要将备DN停止,cm_ctl stop -n 集群状态备DN的主机ID号 -D 备DN数据目录

停止后,业务单主运行,需要让客户对业务表进行整理,文件数关联表数量,分区数,列存字段数等等,

主DN小文件数量下降后,删除备DN的数据目录(删除操作需谨慎,建议联系华为工程师确认)

对该备DN全量build

cm_ctl build -n 集群状态备DN的主机ID号 -D 备DN数据目录 -b full -t 10800000

build完备DN会自动拉起

 

总结:文件系统MPPDB推荐使用XFS,业务侧应控制小文件数

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316792.html

(0)
上一篇 2025年10月30日 00:00
下一篇 2025年10月30日 00:02

相关推荐

发表回复

登录后才能评论