1 变更概述
1.1 目的和需求
保障网卡驱动升级完成后,数据库集群和客户业务稳定运行。
2 变更操作步骤
确保网卡驱动升级后集群运行状态正常,需按以下步骤做变更。
2.1 停止业务
停止SDR数据复制链路loader组件,客户操作。
2.2 停止集群
登录FusionInsight Manager,选择“集群 > 概览 > 停止”,点击停止按钮之后,需要输入FusionInsight Manager的密码。
2.3 升级网卡驱动
由硬件部门处理。
2.4 检查LVS配置
升级成功之后检查LVS相关配置。
当LVS使用的网卡是双网卡bond时,需要关闭客户端、LVS主备节点和CN的bond网卡和物理网卡的lro、gro 、gso 、tso参数,具体如下所示(假设bond网卡名称为bond0,被bond的两个物理网卡是eth1和eth2):
查看bond网卡使用的物理网卡:
ifconfig|grep `ifconfig|grep "bond0"|awk '{print $NF}'`|awk '{print $1}'
ethtool -K bond0 lro gro gso tso off
ethtool -K eth1 gro lro gso tso off
ethtool -K eth2 gro lro gso tso off
使用下面命令查看是否关闭:
ethtool -k bond0 ethtool -k eth1 ethtool -k eth2
显示如下信息表示lro和gro已关闭。
tcp-segmentation-offload:off generic-segmentation-offload:off generic-receive-offload: off large-receive-offload: off
如果lro、gro、tso、gso不能正常关闭,请联系技术支持工程师提供技术支持。
2.5 启动集群
检查LVS配置成功之后,启动集群。
登录FusionInsight Manager,选择“集群 > 概览 > 启动”。观察集群已正常启动后进行下一步操作。
2.6 启动业务
启动SDR数据复制链路loader组件,客户操作。
2.7 执行gs_check巡检
2.7.1生成hostfile文件
使用omm用户登录集群第一个CN节点执行:
su - omm
source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile
cm_ctl query -Cvi|grep "Primary Normal"|awk '{print$3}'|uniq > /home/omm/hostfile
2.7.2 创建工作目录
登录该CN节点,用omm用户执行下边命令:
清理原有工作目录
for i in `cat /home/omm/hostfile`;do ssh $i "hostname;rm -rf /home/omm/test_check" ;done
重新创建工作目录
for i in `cat /home/omm/hostfile`;do ssh $i "hostname;mkdir -p /home/omm/test_check" ;done2.7.3上传收集工具
1、确认gs_check路径,若已有gs_check工具,跳过第二步
which gs_check
2、gs_check工具下载地址:
https://support.huawei.com/enterprise/zh/cloud-computing/fusioninsight-tool-pid-21624171/software
点击 FusionInsight Tool Prober 6.x.x,下载FI-mrs-syschecker-6.x.x.zip
解压后到以下目录:
SysCheckerSysCheck_C80ClientScripts17_MPPDBLib,找到gs_check
3、将Check包上传至该CN节点的/home/omm/test_check目录下
修改test_check目录及目录下文件的属主为omm
cd /home/omm/test_check unzip Check_0330.zip chown -R omm:wheel /home/omm/test_check/Check/ chmod +x -R /home/omm/test_check/
2.7.4分发收集工具至其他节点
su - omm source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile for i in `cat /home/omm/hostfile`;do scp -r /home/omm/test_check/* $i:/home/omm/test_check/;done
2.7.5执行信息收集
cd /home/omm/test_check/Check ./gs_check -e inspect -U omm -l ./check.log 等待生成一下巡检结果如下: /home/omm/test_check/Check/inspection/output/CheckReport_***.tar.gz
解压CheckReport_***.tar.gz得到巡检报告,如下图:

将生成的巡检结果文件尽快反馈至华为工程师,需结合业务场景对巡检报告中“检查结果”列为“NG”列的巡检项进行配置指导。
2.7.6 分析巡检报告
客户自行分析巡检报告时,重点关注“检查结果”列为“NG”的列,对于不符合配置的,参考巡检报告最后一列“修复建议”进行修复。
例如:
修复网卡多队列绑定
./gs_check -i CheckMultiQueue –set
3 测试验证
# 查集群状态
cm_ctl query -Cv
4 应急措施
4.1 启停集群失败
分析日志,处理失败原因,重新尝试启停。
4.2 LVS检查失败
尝试多次检查LVS。
4.3 gs_check巡检项未通过
将报告及时反馈华为工程师,客户自行分析时参考gs_check巡检报告进行修复,有问题请及时联系华为工程师。
5 变更后工作
5.1 变更后业务验证(必选)
l 集群状态检查
cm_ctl query –Cv
l 客户接入业务自行测试。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316707.html