升级网卡驱动后数据库配置实施方案

1      变更概述

1.1      目的和需求

保障网卡驱动升级完成后,数据库集群和客户业务稳定运行。

2      变更操作步骤

确保网卡驱动升级后集群运行状态正常,需按以下步骤做变更。

2.1      停止业务

停止SDR数据复制链路loader组件,客户操作。

2.2      停止集群

登录FusionInsight Manager,选择“集群 > 概览 > 停止”,点击停止按钮之后,需要输入FusionInsight Manager的密码。

2.3      升级网卡驱动

由硬件部门处理。

2.4      检查LVS配置

升级成功之后检查LVS相关配置。

当LVS使用的网卡是双网卡bond时,需要关闭客户端、LVS主备节点和CN的bond网卡和物理网卡的lro、gro 、gso 、tso参数,具体如下所示(假设bond网卡名称为bond0,被bond的两个物理网卡是eth1和eth2):

查看bond网卡使用的物理网卡:

ifconfig|grep `ifconfig|grep "bond0"|awk '{print $NF}'`|awk '{print $1}'
ethtool -K bond0 lro gro gso tso off
ethtool -K eth1 gro lro gso tso off
ethtool -K eth2 gro lro gso tso off

使用下面命令查看是否关闭:

ethtool -k bond0
ethtool -k eth1
ethtool -k eth2

显示如下信息表示lro和gro已关闭。

tcp-segmentation-offload:off
generic-segmentation-offload:off
generic-receive-offload: off
large-receive-offload: off

如果lro、gro、tso、gso不能正常关闭,请联系技术支持工程师提供技术支持。

2.5      启动集群

检查LVS配置成功之后,启动集群。

登录FusionInsight Manager,选择“集群 > 概览 > 启动”。观察集群已正常启动后进行下一步操作。

2.6      启动业务

启动SDR数据复制链路loader组件,客户操作。

2.7      执行gs_check巡检

2.7.1生成hostfile文件

使用omm用户登录集群第一个CN节点执行:

su - omm
source     /opt/huawei/Bigdata/mppdb/.mppdbgs_profile
cm_ctl query -Cvi|grep     "Primary Normal"|awk '{print$3}'|uniq > /home/omm/hostfile

2.7.2 创建工作目录

登录该CN节点,用omm用户执行下边命令:

清理原有工作目录

for i in `cat   /home/omm/hostfile`;do   ssh $i "hostname;rm -rf /home/omm/test_check"   ;done

重新创建工作目录

for i in `cat     /home/omm/hostfile`;do ssh $i "hostname;mkdir -p     /home/omm/test_check" ;done2.7.3上传收集工具

1、确认gs_check路径,若已有gs_check工具,跳过第二步

which gs_check

2、gs_check工具下载地址:

https://support.huawei.com/enterprise/zh/cloud-computing/fusioninsight-tool-pid-21624171/software

点击 FusionInsight Tool Prober 6.x.x,下载FI-mrs-syschecker-6.x.x.zip

解压后到以下目录:

SysCheckerSysCheck_C80ClientScripts17_MPPDBLib,找到gs_check

3、将Check包上传至该CN节点的/home/omm/test_check目录下

修改test_check目录及目录下文件的属主为omm

cd /home/omm/test_check
unzip Check_0330.zip
chown -R omm:wheel     /home/omm/test_check/Check/
chmod +x -R   /home/omm/test_check/

2.7.4分发收集工具至其他节点

su - omm
source   /opt/huawei/Bigdata/mppdb/.mppdbgs_profile
for i in `cat /home/omm/hostfile`;do     scp -r /home/omm/test_check/* $i:/home/omm/test_check/;done

2.7.5执行信息收集

cd   /home/omm/test_check/Check
./gs_check -e inspect -U   omm -l   ./check.log
等待生成一下巡检结果如下:
/home/omm/test_check/Check/inspection/output/CheckReport_***.tar.gz

解压CheckReport_***.tar.gz得到巡检报告,如下图:

image.png

将生成的巡检结果文件尽快反馈至华为工程师,需结合业务场景对巡检报告中“检查结果”列为“NG”列的巡检项进行配置指导。

2.7.6 分析巡检报告

客户自行分析巡检报告时,重点关注“检查结果”列为“NG”的列,对于不符合配置的,参考巡检报告最后一列“修复建议”进行修复。

例如:

修复网卡多队列绑定

./gs_check -i CheckMultiQueue –set

3      测试验证

# 查集群状态

cm_ctl query   -Cv

4      应急措施

4.1      启停集群失败

分析日志,处理失败原因,重新尝试启停。

4.2      LVS检查失败

尝试多次检查LVS。

4.3      gs_check巡检项未通过

将报告及时反馈华为工程师,客户自行分析时参考gs_check巡检报告进行修复,有问题请及时联系华为工程师。

5      变更后工作

5.1      变更后业务验证(必选)

l  集群状态检查

cm_ctl query –Cv

l  客户接入业务自行测试。

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316707.html

(0)
上一篇 2025年10月29日 23:41
下一篇 2025年10月29日 23:42

相关推荐

发表回复

登录后才能评论