故障现象:

某局点FIM页面有37031告警, CM_AGENT连接数据库失败

查看集群状态一直是降级状态,备DN 6044一直处于starting状态

排查过程:

20210701154746_73005.png

查看DN日志,可以看到有报no space left on device

这时去df -h,使用率不到50%

df -i查看inode,使用率也不高

z.png

查看数据目录的业务库文件数,可以看到1500W

尝试创建其他文件名文件,可以创建

尝试创建报错名文件,报no space left

查看Messages日志,有报index满

z.png

明确现场的文件系统为ext4系统,而非gaussdb推荐的xfs系统

参照https://www.codenong.com/cs106691591/根据连接,ext4文件数量多时使用hashtree算法,

当哈希冲突,无法创建entry时,就会报错,

处理方法:

现在已经通知业务侧整理业务表结构,业务侧有按天分区的归档文件未归档

待清理分区记录文件数后,对备DN进行全量build