版本:
HCS 803 DWS 8.1.0.100
HCS 802 DWS 8.1.0.3
现象:
1.进度40%
2.错误码:DWS.6000
分析:
1.登录rms数据库task走到RdsPingInstanceManagerIpTask时FAIL
2.登录dwscontroller容器,根据获取到的jobId,查看日志 ERROR信息:Check null connect refuse
3.CDK参数中needDeleteCluster 置为false 关闭回滚开关,失败时,回滚实例,登录iBMC查看信息
4.bmc信息显示:
Warning:Cloud not boot
Warning:/dev/disk/by-uuid/xxxxxxxxxxxxxxxxxx does not exist
Warning: Boot has failed,To debug this issue add “rd.shell rd.debug” to the kernel command line.
判定是raid卡驱动缺失
5.联系一线获取硬件信息raid卡信息:SmartRaid 3152,8.1.0.101版本的镜像没有对应的raid驱动
根因:
8.1.0.101版本的镜像没有对应的raid驱动
解决方案:
申请使用8.1.1.2版本镜像以及instance中的软件包,插件包,具体操作看替换方案
连接:https://support.huawei.com/enterprise/zh/cloud-computing/hcs-dws-service-pid-251527524/software/254155349?idAbsPath=fixnode01%7C22658044%7C7919788%7C9856606%7C251527524
8.0.2 8.1.0.3 arm:https://support.huawei.com/enterprise/zh/cloud-computing/hcs-dws-service-pid-251527524/software/253420001?idAbsPath=fixnode01%7C22658044%7C7919788%7C9856606%7C251527524
替换方案:
1.将fcd的/home/pkg目录下的DWS ARM X86镜像文件都进行替换,替换为当前需要注册的镜像。
1)上传 压缩包: DWS_ARM_OLAP_BMS_V_20210616095336.tar.gz
DWS_X86_OLAP_BMS_V_20210617103018.tar.gz
2)删除原来的镜像文件
2.(8.1.0.3需要手动注册镜像)由于serviceOM手动注册镜像需要将镜像传入公共镜像桶,需要找人要公共镜像桶的登录信息,比较麻烦。直接使用工步进行镜像注册。
https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=181926
3.(FCD适用)在FCD后台使用命令重跑任务 “注册DWS BMS业务镜像”重新注册镜像
命令: bash /opt/rootscripts/fcdscripts/retry_step.sh run -i 任务id 任务id从FCD中DWS安装工程工步界面获取
如果DWS的安装工程被删除,重新创建一个,并将包校验等安装之前的工步全部走完,(LLD也要上传),最后到安装的步骤,不要启动,直接找到SUBTASK id,使用上述命令重试。
可能遇到的问题:Failed to establish a new connection:[Errno -2]Name or service not known 分析是dns信息丢失,恢复方案:FCD后台 cat /etc/resolv.conf 配置自动化平台中的dns_ntp_om_ip_01/dns_ntp_om_ip_02,添加上后可以ping通
4.在serviceOM的镜像资源处找到刚刚注册的镜像ID,记录下来
5.把下载Public_Cloud***Instance包解压,并把所有文件都上传到dws-instance-regeionId桶里。
此处分两种存储服务:obs和swift,下面分别列出来,两种存储都需要获取桶名和对应用户的ak/SK信息
第一步:获取信息
桶信息:CDK参数中的instance.obsBucketName,
AK/SK:op_svc_dws用户的登录信息,从rms库rds_obs_info表中获取
select * from rds_obs_info /G; 登录数据库请参考 DWS 登录指南 https://bbs.huaweicloud.com/forum/thread-150183-1-1.html
第二步:上传包
1) obs:使用obs工具上传,比如OBS Browser
下载地址:https://developer.huaweicloud.com/tools#section-2,关于工具的使用请参考用户指南:https://support.huaweicloud.com/browsertg-obs/obs_03_1000.html,在obs服务界面下载, 遇到问题请联系obs技术支撑
2) swift:使用udstool.jar上传
a.命令如下:
echo “${obs_ak} ${obs_sk} ${file_name} 1 ${obs_url} ${obs_port} uploadobject ${bucket_name}” | java -jar udstool.jar
参数说明:
${obs_ak} : 为op_svc_dws用户对应的ak,sk,从在rds_obs_info表,为表中authority为readOnly属性的数据的ak列。
${obs_sk}: 为op_svc_dws用户对应的ak,sk,从在rds_obs_info表,为表中authority为readOnly属性的数据的sk列,获取的为密文,需要就解密
${file_name}:需要上传的文件名, 单个文件执行,每次上传一个文件
${obs_url}:CDK参数中的obs.endpoint 中的域名或者ip
${obs_port}:CDK参数中的obs.endpoint 中的端口
${bucket_name}:CDK参数中的instance.obsBucketNam或者rds_obs_info表中readOnly属性的桶的桶名
b.udstool.jar的获取
1) 在fcd后台,使用root用户把Instance软件包(Public_Cloud_Solution_DWS_Instance_*.zip)上传到HCSD节点的/tmp目录下
2) 使用root用户登陆HCSD节点,执行如下命令解压缩软件包。执行如下命令,最终在/tmp/instance/ 目录下获取udstool.jar及安装包
cd /tmp/
rm -rf /tmp/instance/ && mkdir /tmp/instance/
unzip Public_Cloud_Solution_DWS_Instance_*.zip -d /tmp/instance/
cd /tmp/instance/
mkdir /tmp/instance/tmp/
tar xvf *-guestAgent-*.tar.gz -C /tmp/instance/tmp/
tar xvf /tmp/instance/tmp/*-mgntAgent.tar.gz -C /tmp/instance/tmp/
cp /tmp/instance/tmp/mgntAgent/udstool.jar /tmp/instance/
rm -rf /tmp/instance/tmp/
6.导入xml配置,登录serviceOM,进度到数据仓库服务的serviceOM界面,配置管理–》xml配置–》导入xml配置,下拉选择对应的版本,比如 8.1.1.2 ,确定
7.录入版本配置信息,配置管理–》版本配置–》
版本选:8.1.1.2
正常
1)新增软件包,对应8.1.1.2的软件包;
2)录入镜像信息,填3注册的镜像id或者4拿到的id;
3)录入插件信息,录入8.1.1.2对应的插件包
— 结束
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316681.html
