集群创建失败 DWS.6000/进度40%失败/RdsPingInstanceManagerIpTask

版本:

HCS 803 DWS 8.1.0.100

HCS 802 DWS 8.1.0.3

现象

1.进度40%

2.错误码:DWS.6000

分析

1.登录rms数据库task走到RdsPingInstanceManagerIpTask时FAIL

2.登录dwscontroller容器,根据获取到的jobId,查看日志 ERROR信息:Check null connect refuse

3.CDK参数中needDeleteCluster 置为false 关闭回滚开关,失败时,回滚实例,登录iBMC查看信息

4.bmc信息显示:

Warning:Cloud not boot

Warning:/dev/disk/by-uuid/xxxxxxxxxxxxxxxxxx does not exist

Warning:  Boot has failed,To debug this issue add “rd.shell rd.debug” to the kernel command line.

   判定是raid卡驱动缺失

5.联系一线获取硬件信息raid卡信息:SmartRaid 3152,8.1.0.101版本的镜像没有对应的raid驱动

根因

8.1.0.101版本的镜像没有对应的raid驱动

解决方案

申请使用8.1.1.2版本镜像以及instance中的软件包,插件包,具体操作看替换方案

连接:https://support.huawei.com/enterprise/zh/cloud-computing/hcs-dws-service-pid-251527524/software/254155349?idAbsPath=fixnode01%7C22658044%7C7919788%7C9856606%7C251527524

8.0.2 8.1.0.3 arm:https://support.huawei.com/enterprise/zh/cloud-computing/hcs-dws-service-pid-251527524/software/253420001?idAbsPath=fixnode01%7C22658044%7C7919788%7C9856606%7C251527524

替换方案

1.将fcd的/home/pkg目录下的DWS ARM X86镜像文件都进行替换,替换为当前需要注册的镜像。

1)上传 压缩包: DWS_ARM_OLAP_BMS_V_20210616095336.tar.gz
DWS_X86_OLAP_BMS_V_20210617103018.tar.gz

2)删除原来的镜像文件

2.(8.1.0.3需要手动注册镜像)由于serviceOM手动注册镜像需要将镜像传入公共镜像桶,需要找人要公共镜像桶的登录信息,比较麻烦。直接使用工步进行镜像注册。

https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=181926

3.(FCD适用)在FCD后台使用命令重跑任务 “注册DWS BMS业务镜像”重新注册镜像

命令: bash /opt/rootscripts/fcdscripts/retry_step.sh run -i 任务id   任务id从FCD中DWS安装工程工步界面获取

如果DWS的安装工程被删除,重新创建一个,并将包校验等安装之前的工步全部走完,(LLD也要上传),最后到安装的步骤,不要启动,直接找到SUBTASK id,使用上述命令重试。

可能遇到的问题:Failed to establish a new connection:[Errno -2]Name or service not known 分析是dns信息丢失,恢复方案:FCD后台 cat /etc/resolv.conf 配置自动化平台中的dns_ntp_om_ip_01/dns_ntp_om_ip_02,添加上后可以ping通

4.在serviceOM的镜像资源处找到刚刚注册的镜像ID,记录下来

5.把下载Public_Cloud***Instance包解压,并把所有文件都上传到dws-instance-regeionId桶里。

此处分两种存储服务:obs和swift,下面分别列出来,两种存储都需要获取桶名和对应用户的ak/SK信息

 第一步:获取信息

桶信息:CDK参数中的instance.obsBucketName,

AK/SK:op_svc_dws用户的登录信息,从rms库rds_obs_info表中获取

select * from rds_obs_info /G;  登录数据库请参考 DWS 登录指南 https://bbs.huaweicloud.com/forum/thread-150183-1-1.html

第二步:上传包

1) obs:使用obs工具上传,比如OBS Browser

下载地址:https://developer.huaweicloud.com/tools#section-2,关于工具的使用请参考用户指南:https://support.huaweicloud.com/browsertg-obs/obs_03_1000.html,在obs服务界面下载, 遇到问题请联系obs技术支撑

  2) swift:使用udstool.jar上传

a.命令如下:

echo “${obs_ak} ${obs_sk} ${file_name} 1 ${obs_url} ${obs_port} uploadobject ${bucket_name}” | java -jar udstool.jar

参数说明:

${obs_ak}  : 为op_svc_dws用户对应的ak,sk,从在rds_obs_info表,为表中authority为readOnly属性的数据的ak列。

${obs_sk}:  为op_svc_dws用户对应的ak,sk,从在rds_obs_info表,为表中authority为readOnly属性的数据的sk列,获取的为密文,需要就解密

${file_name}:需要上传的文件名, 单个文件执行,每次上传一个文件

${obs_url}:CDK参数中的obs.endpoint 中的域名或者ip

${obs_port}:CDK参数中的obs.endpoint 中的端口

${bucket_name}:CDK参数中的instance.obsBucketNam或者rds_obs_info表中readOnly属性的桶的桶名

b.udstool.jar的获取

1) 在fcd后台,使用root用户把Instance软件包(Public_Cloud_Solution_DWS_Instance_*.zip)上传到HCSD节点的/tmp目录下

2) 使用root用户登陆HCSD节点,执行如下命令解压缩软件包。执行如下命令,最终在/tmp/instance/ 目录下获取udstool.jar及安装包

cd /tmp/
rm -rf /tmp/instance/ && mkdir /tmp/instance/
unzip Public_Cloud_Solution_DWS_Instance_*.zip -d /tmp/instance/
cd /tmp/instance/
mkdir /tmp/instance/tmp/
tar xvf *-guestAgent-*.tar.gz -C /tmp/instance/tmp/
tar xvf /tmp/instance/tmp/*-mgntAgent.tar.gz -C /tmp/instance/tmp/
cp /tmp/instance/tmp/mgntAgent/udstool.jar /tmp/instance/
rm -rf /tmp/instance/tmp/

6.导入xml配置,登录serviceOM,进度到数据仓库服务的serviceOM界面,配置管理–》xml配置–》导入xml配置,下拉选择对应的版本,比如 8.1.1.2 ,确定

7.录入版本配置信息,配置管理–》版本配置–》

版本选:8.1.1.2

正常

1)新增软件包,对应8.1.1.2的软件包;

2)录入镜像信息,填3注册的镜像id或者4拿到的id;

3)录入插件信息,录入8.1.1.2对应的插件包

— 结束

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316681.html

(0)
上一篇 2天前
下一篇 2天前

相关推荐

发表回复

登录后才能评论