技术专区
-
【运维变更】【标准变更方案】【纯软】主备均衡
1. 适用场景 集群在运行过程中,出于运维目的数据库管理员可能需要手工对DN或GTM做主备切换。例如发现DN或GTM主备自动failover后想恢复原有的主备角色。 2. 前提条件 1) GaussDB A集群安装成功,且处于主备不…
-
【gs_hastatuscheck】集群故障诊断&&集群故障时间线梳理工具介绍
【应用场景】 集群出现故障使用该工具诊断出集群故障点并给出集群修复方案,梳理指定时间点集群故障时间线。 【参数说明】 python gs_hastatuscheck.py [-s 6001] [-f 2021-12-12] [-t 2021-12-21] [--local] -s 指…
-
dn主备切换分析
集群运行过程中,经常会出现dn切换得场景,对应FI界面会有集群平衡状态异常和dn主备不同步告警 一般来说,原因大概以下3种 一:内存不足 out of memory 1.var/log/messages日志在切换时间点是否有kill关键字,若存…
-
GaussDB(DWS)主动预防-kerbos认证问题排查与整改
【问题现象】 Gauss DB产品默认开启mppdb_inner_kerberos_enable认证参数,当票据超期,可能会出现以下问题 【问题描述】 1.认证不通过导致业务报错:GSSAPI continuation error 2.认证不通过导致变更中重启集群失…
-
GaussDB(DWS)【集群故障】build拉起一段时间后退出
【问题现象】 1、现场单实例故障,手动拉起build实例后实例状态显示build failed,反复重试后此问题仍然存在 2、某节点所有实例down unkown与starting状态来回切换 【原因分析】 1、现场查看gs_ctl 日志无报错,异…
-
【集群恢复】端口号冲突导致的集群状态异常
起集群发生备DN启动失败,DN日志内容包含 Address already in use字段,且提示出明确的端口号。 定位步骤: 1. 查找日志中提示的冲突端口号,例:备DN端口号25152(同时确认IP是否合法且未被占用)。 2. 执行命令:…
-
【ccn】作业执行时,如果出现执行不动的情况,查看wait_status,发现大量在wait ccn
GaussDB是一个内存自适应的数据库,会自动根据全局内存的负载情况,来对每个语句进行仲裁,当当前资源合理的情况下,才会让语句下发并执行,如果在资源不足的情况下,就不让他继续执行,等到资源充足才进行执行,避…
-
多租户创建时,CPU配额没有达到上限,就会报错CPU资源不足怎么处理
GaussDB创建租户时有时候会遇到这种情况,举个例子,在界面上创建一个,父租户,配额20%,再创建一个父租户,配额50%,点击确定出现报错,报错如下: CPU的配额,父租户总共可以分配80%,子租户从父租户进行重新分配…
-
【添加实例】信号量不足导致的增加CN失败
CN自动剔除后,执行增加CN报错。定位步骤如下: 分析日志。进入$GAUSSLOG/om下,搜索包含错误码GAUSS_5字段的日志上下文。 确认日志信息内容包含执行命令gs_initdb时报错。此时问题已定界为gs_initdb脚本。 进入$GA…
-
【LVS异常】某局点因同一网段内多个集群安装lvs导致业务连接超时
【问题描述】 某局点在近期将业务连接方式迁移至lvs方式后,偶发性报错连接超时错误: 【分析过程】 查看message日志信息有如下: 该报错同一集群内还有其他几圈安装lvs的virtual_router_id冲突 【处理办法】 修改…