故障现象:
某局点FIM页面有37031告警, CM_AGENT连接数据库失败
查看集群状态一直是降级状态,备DN 6044一直处于starting状态
排查过程:

查看DN日志,可以看到有报no space left on device
这时去df -h,使用率不到50%
df -i查看inode,使用率也不高

查看数据目录的业务库文件数,可以看到1500W
尝试创建其他文件名文件,可以创建
尝试创建报错名文件,报no space left
查看Messages日志,有报index满

明确现场的文件系统为ext4系统,而非gaussdb推荐的xfs系统
参照https://www.codenong.com/cs106691591/根据连接,ext4文件数量多时使用hashtree算法,
当哈希冲突,无法创建entry时,就会报错,
处理方法:
现在已经通知业务侧整理业务表结构,业务侧有按天分区的归档文件未归档
待清理分区记录文件数后,对备DN进行全量build
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316768.html