大数据
-
【内存】idle线程过多导致memory is temporarily unavailable
问题现象: 集群出现很多dn报内存不可用问题,导致大批作业中断。 ERROR: dn_6217_6218 memory is temporarily unavailable DETAIL: Failed on request of size 54720 bytes under queryid 43341056. 定位过程: 1…
-
【内存】表定义不合理导致autovacuum占用大量内存
问题现象: 1.查看数据库日志,每十分钟就会报一次内存耗尽,报错时间点与跑不出来作业的时间点一致 2. 查看pgxc_total_memory_detail中各个cn和dn历史最高内存,发现只有cn5004的内存会达到瓶颈,cn5004为ccn 定位…
-
CPU高的高效排查手段
1.top看哪个进程高,记pid2.top -H -p pid 查看这个进程里具体什么线程占用cpu3.gstack pid(线程id),可以看下这个语句的执行过程,是在干些什么事情。4.连到数据库,查用线程的id,查pgxc_thread_wait_status,…
-
界面实例启动失败,后台集群状态正常
整个数据库集群中,会分为管控面的界面,和实际业务执行的后台集群。 有时会有这样的情况,在一系列变更等操作之后,可能去做一个启动或者重启等操作,这时候发现界面启动就失败了。但是查后台状态cm_ctl query -Cv…
-
使用omm用户修改集群参数时报“Permission denied”
问题描述:使用omm用户修改数据库内存参数时 gs_guc set -N all -I all -Z datanode -c "shared_buffers=2GB" 遇到以下错误: could not stat file "(null)/build_completed.start": Permission denied The file "(…
-
集群出现大量(5W+)僵尸进程,OS load高,引发os重启
【问题现象】 操作系统版本:Redhat 7.4 / x86 GaussDB版本:GaussDB A 6.5.1.5 集群出现大量(5W+)僵尸进程,OS load高,引发os重启,现场排查发现是后台的secbox反复在重启引发的该僵尸进程 【问题分析】 1、通…
-
C80SPC800升级前整改,cn系统函数不一致
分析过程 巡检结果分别查看了三个库上的pg_proc试图,有如下函数在cn5001上存在,cn5002上缺失 pg_catalog | pgxc_stat_get_wal_senderspg_catalog | to_charpg_catalog | to_clobpg_catal…
-
LVS部署后验证轮询异常,/etc/rc.d/rc.local里面的网卡和iptables的配置项被丢失
【分析过程】 LVS部署完成后,验证轮询异常,执行如下命令判断iptables是否正常 iptables -t mangle --list 如下所示,iptables配置没有生效 查看/etc/rc.d/rc.local文件中的配置项信息,缺少网卡的相关设置信息,…
-
gaussdb dws CPU使用率超过阈值
【问题现象】 在前端FIM界面上观察集大部分节点的CPU使用率持续飚高,具体情况见下图: 【问题分析】 1. 通过TOP命令查看gaussdb 进程的CPU使用率,可以观察到在CPU使用高峰的时候可以达到1000%+,当时截图没有保留…
-
新装、扩容集群通信报错:data/control channel disconnect
1. 问题描述 版本:GaussDB A-8.0.0.1 服务器:ARM 泰山200 CentOS 7.6 9月24日,用户GDS外表导入报错:ERROR:dn_6063_6064: Failed to connect dn_6001_6002, detail:1047 control channel disconnect,用户入库…