大数据
-
【集群启停】dn手动停止之后再次启动时启动不了
【问题现象】 现场出于某种原因主动停止了一个主dn,然后一段时间后重新去启动此dn,但是启动不起来,ps查进程也没看到相应进程启动。 【排查过程】 排查对应节点上systemcall日志,发现有如下报错,怀疑数据目录权…
-
配置的ntp外部时钟源可以ping通,但是ntp服务不能同步时间
问题背景与现象 配置的ntp外部时钟源可以ping通,但是ntp服务不能同步时间,FusionInsight Manager 上报12012NTP 服务异常告警,告警附加信息提示: Detail=Status of upper ntp server is [.INIT.]. Upper ntp ser…
-
多租户资源管理,配置了CPU限额,还是出现了单个用户的作业将CPU资源占高的情况
数据库使用过程中,有时会出现这样的情况,在OS文件系统有问题的情况下,配置了CPU限额,还是出现了单个用户的作业将资源占满的情况,具体根因是由于OS文件系统有问题的时候,会导致后台cgroup的挂载出现不稳定,从…
-
升级集群前准备失败(81%),报 the environmental variable [GAUSS_ENV]'s va
【问题现象】升级集群前准备失败(81%),报 the environmental variable [GAUSS_ENV]'s value 查看日志:/var/log/Bigdata/mpp/omm/om/gs_local-XXXX.log 【分析过程】 分别在正常节点、异常节点,执行su - root -…
-
GaussDB(DWS) 对一个用户,进行并发数的限制
GaussDB(DWS)就支持这种操作。确切说,GaussDB(DWS)支持两种并发控制的操作: 1)第一种与内存相关,当给你的用户分配了一定内存时,那么会根据内存的使用情况去限制并发,假如内存使用达到了阈值,那么实际的…
-
单节点CPU高?是不是很多getClientInfo进程
GaussDB(DWS)可以支持很大并发的连接数量同时连接,有时候会出现资源利用率过高,节点上cpu使用率飙升的情况,本次介绍一种情况,当连接数过多的时候,可能有一个进程导致单个cn节点cpu高。 【判断问题】 1.CPU使用…
-
【集群恢复】Gauss DB某一节点文件描述符耗尽应急
节点文件描述符耗尽可能引起GaussDB实例重启造成集群不可用,本文主要讨论如何快速恢复集群以及后续如何预防。 以下图为例,文件由于文件描述符耗尽导致实例异常状态如下: 前提:如何确定实例异常是由于文件描述符…
-
【6.5.1】【CM】集群重启后,备cm_server 进程down,cms无法启动
集群版本】GaussDB A 6.5.1 【问题描述】集群重启后,备cm_server 进程down,cms无法启动 【机制说明】 cm_server进程的启动是由cm_agent拉起,在cm_server的listen端口被占用时cm_agent会等待端口占用解除后自动拉…
-
业务报错Cannot get stream index,maybe comm_max_stream is not
【问题描述】业务报错Cannot get stream index,maybe comm_max_stream is not enough 【机制说明】 comm_max_stream参数表示任意两个dn之间stream的最大数量 在cn查询当前任意两个dn之间stream情况: select node_n…
-
用DS连接,等待锁超时,wait transaction 1234567 sync time exceed 600
日常使用过程中出现业务报错:ERROR: wait transaction 1257273 sync time exceed 600s. 就是这种等待某个事物超时的情况。这样的问题我们可以用以下的思路进行排查,最后也有应急手段。 【定位手段】 连接到cn : …