客户反应,由两套IBM x460组成的Oracle 10g RAC集群,出现ping任何IP地址,都会出现0.000ms的故障。
一、故障描述
◎硬件架构:
每套x460是由两台x460堆叠而成的,每台带1块双口的网卡,也就是一套4个口,实际使用到其中的2个口,一个接路由器,一个接交叉线连接到另外一套中,做心跳。
每套带两块HBA卡,连接到DS4300盘柜中,实现冗余。
◎软件架构:
应用:Oracle 10g R2 RAC
◎现在遇到的问题是:
ping 机器IP(127.0.0.10)、本机IP和对方的心跳IP地址,都会出现很明显的延迟,5ms以上。
其中还会出现一些0.000ms的信息。
PING 127.0.0.1 (127.0.0.1) 56(84) bytes of data.
64 bytes from 127.0.0.1: icmp_seq=0 ttl=64 time=3.75 ms
64 bytes from 127.0.0.1: icmp_seq=1 ttl=64 time=5.52 ms
64 bytes from 127.0.0.1: icmp_seq=2 ttl=64 time=3.84 ms
64 bytes from 127.0.0.1: icmp_seq=3 ttl=64 time=0.000ms
64 bytes from 127.0.0.1: icmp_seq=4 ttl=64 time=4.41 ms
64 bytes from 127.0.0.1: icmp_seq=5 ttl=64 time=6.25 ms
— 127.0.0.1 ping statistics —
6 packets transmitted, 6 received, 0% packet loss, time 11091ms
rtt min/avg/max/mdev = 0.084/0.092/0.107/0.009 ms, pipe 2
本机IP:
二、故障解决
1、升级网卡驱动
参考IBM的官方资料,把原bcm5700驱动升级为tg3,并屏蔽不用的两个网卡;
修改/etc/modprobe文件,把:
eth1 bcm5700
eth2 bcm5700
eth3 bcm5700
改为:
#eth1 tg3
eth2 tg3
#eth3 tg3
※可使用mii-tool或ethtool工具确认网卡是否处于联通状态。
2、升级核心
单纯升级网卡驱动,未能解决问题,故决定升级到SP2核心。
rpm -ivh kernel-smp-devel-2.6.9-42.7AX.x86_64.rpm
rpm -ivh kernel-smp-driver-a320raid-3.00.071-2.6.9_42.7AX_9.x86_64.rpm
rpm -ivh kernel-smp-driver-aarich2-6.00.086.I308-2.6.9_42.7AX_7.x86_64.rpm
rpm -ivh kernel-smp-driver-aarich-6.00.086.I308-2.6.9_42.7AX_7.x86_64.rpm
rpm -ivh kernel-source-2.6.9-42.7AX.x86_64.rpm
rpm -Uvh kernel-utils-2.4-13.1.83.4AX.x86_64.rpm
rpm -Uvh mkinitrd-4.2.1.8-1.2AX.x86_64.rpm
而从SP2核心开始,自带两个qla2300驱动,一个支持failover,另外一个不支持。所以,需要修改/etc/modprobe.conf文件;
把:
修改为:
※可参考/lib/modules/2.6.9-42.7AXsmp/kernel/drivers/scsi/中的qla2xxx和qla2xxxfo目录信息
最后,重新初始化initrd.img文件:
# mkinitrd -f initrd-2.6.9-34.21AXsmp.img 2.6.9-42.7AXsmp
保存后,重启服务器,并选择从新核心启动。故障解决。
◎若确认新核心能正常使用,可修改/boot/grub/menu.lst文件的核心启动顺序。
三、回顾
该问题,应是旧核心无法正确识别x460的硬件架构导致的。其他x系列机器,没发现类似的故障。
解决Asianux 4.0 修改MAC地址后网卡不能启动的错误
补充udev 绑定网卡的方法
[转]如何创建第三方驱动盘
备份ifcfg-eth*文件带来的网络故障问题
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/112911.html