技术专区
-
【磁盘空间】DWS集群只读磁盘base目录占有率高案例分析
1、问题描述 重复告警。 2、分析过程 1.DWS集群在任意dn节点磁盘空间使用率超过90%后,将触发dws集群只读保护,避免发生磁盘占用率上升至100%后难以处理的情况。 2.常用命令 …
-
业务报错:could not begin transaction on datanodes
业务偶现报错:could not begin transaction on datanodes 问题分析: 此类报错是由于cn将语句下发给dn时建连失败,一般是网络问题导致 对现场进行常规巡检,发现部分节点的网卡多队列配置失效,将网卡多队列重新配…
-
【性能】泰山服务器重启后,数据库性能严重劣化
泰山服务器重启后,需排查raid卡缓存策略是否变化、lro参数是否被重置为on raid卡缓存策略要求为WB lro参数要求所有节点都关闭,需做到开机启动项中持久化 如果是泰山V2服务器,还需检查smmu参数 参考GaussDB DWS加…
-
【内存】cn/dn内存达到上限无法执行任何语句时如何查看内存视图
cn/dn的dynamic_used_memory达到max_dynamic_memory后,任何语句都无法再执行,包括内存视图pv_total_memory_detail和pv_session_memory_detail 此时为了定位是哪些语句占用内存高,可以在当前session中设置disable…
-
【OS】suse 12.3 操作系统问题导致cn卡死或频繁重启
在suse12.3操作系统上,存在已知问题,线程加上mutex锁后,_data._owner字段不会被赋值为本线程号,而是赋值为0(suse 11上会赋值为本线程号),导致数据库线程对mutex锁状态判断错误,重复加锁,陷入死循环 如何识…
-
FI页面出现datanode磁盘异常告警的处理步骤
问题现象:FI页面有Datannode磁盘异常的告警 排查步骤: 1、在页面出现告警后,先排查是否告警中的实例所在磁盘是否有故障,如果有更换硬盘,如果没有执行步骤2 2、通过FI页面告警中定位信息中有主机名和实例,在后…
-
【gs_replace】执行gs_replace:Invalid username/password, login denied
问题场景如下: 客户误删除了备机实例的实例目录,需要执行gs_replace进行节点修复。执行过程中提示需要输入密码并有如下报错: 问题原因:本地登录是sha256的认证方式 处理方式:需对认证方式做修改,节点修复完成…
-
GaussDB DW 客户端连接数据库很慢
1.1 问题描述 客户端可以连接数据库,但是耗时长。(可能连接个别CN出现此现象) 1.2 原理分析 已知的问题是GaussDB提供GUC参数log_hostname,此参数默认开启。当客户端来连接数据库时,会根据log_…
-
【业务连接】An I/O error occurred while sending to the backend
1 集群版本 GaussDB A 8.0及6.5.1版本 2 问题描述 客户端使用与数据库建好的连接报错:An I/O error occurred while sending to the backend. 3 原理分析 正如2.3.2中所说,当数据库侧由于某种原因将连接断开,应用…
-
外部连接报错:too many clients already, active/non_active: x/x
1.1 问题描述 客户端连接数据库、查询语句等,报错连接已满:too many clients already, active/non_active: xxxx/xxxx. 图1. dn上连接满 1.2 原理分析 max_connections决定了进程内的线程数量上限…