首页 > 代码库 > 服务器硬件问题导致虚拟机自动重启

服务器硬件问题导致虚拟机自动重启

 

 

 

 

 

 

 

                                          环境:Esxi虚拟化 宿主机上面跑两台机器(20.11,21.12),插两块300G的SATA硬盘

现象:监控页面在昨天半夜到今早经常出现空缺部分(感觉应该是机器重启了):

    现象如下

技术分享

排查:

1.首先在21.12这台机器上使用last命令查看重启情况(没来得及截图)但是确实是系统重启过

2.查看/var/log/messages日志,锁定8:27分的日志(也就是重启的时间段)

技术分享

单从日志信息上看cpu不支持变频的问题,由于在操作系统和VCS日志中均没有发现其他异常,因此怀疑是服务器硬件出了问题,去机房一看,服务器住面板的故障灯显示红色

报错信息如下:PDR1101 FAULT delected on drive1.check drive

看着是drive1硬盘坏了,为了保险起见,找到快速服务代码,联系戴尔客服,客服解释是硬盘问题

由于这台服务器是之前同事上架的,并不知道raid级别,关闭这台服务器,再次开机摁ctrl+r,查看,发现做的是raid1(还算有良心,系统有同步的)

于是把坏的硬盘拔下去,在找到一块大小型号一样的服务器类型硬盘插上去(服务器使用的是dell cheetah 15k.7 300GB SATA)(虽然带有红色按钮的硬盘支持热插拔,但是并不建议开机的时候插拔,最好先关机)

技术分享

 

这台机器是做的EXSI虚拟化,又是raid1,按照常理来说坏的硬盘拔下来,插上新的硬盘对系统不会有影响,虚拟机还能正常进去,但是当我在宿主机中打开21.12这台虚拟机的时候,报错(进不去了)

技术分享

 

赶紧去机房重启宿主机服务器,发现系统进不去了,提示找不到,一直在PXE获取,但是没有系统可进

重启 修改硬盘为ACHI模式,ctrl+r 查看硬盘的状态,硬盘状态显示是online的,于是可以确定是第二块硬盘raid数据损坏了,导致系统都没了(看来raid1并不稳啊)

 

目前摆在眼前有两种解决办法 1.找专业的戴尔工程师修复数据备份,重装ESXI

          

              2.重装EXSI

 

本机是测试环境,数据并不重要

但是环境比较重要,于是在其他宿主机分出一部分硬盘空间,联系同事临时部署个资管对应分支代码的环境给测试使用,我这头再重新安装ESXI

重启 ctrl+r进raid 做个raid1,然后清空之前硬盘的数据,开始初始化,等待大概二十分钟

接一个外接光驱,插入R720 ESXI镜像光盘,然后在重启,摁F11进bios UEFI 选择DVD USB模式启动

开始安装过程从镜像中拷贝文件

技术分享

拷贝完成

技术分享

进入安装过程,按回车继续

技术分享

用户协议,点击F11接受并继续

技术分享

选择安装位置

技术分享

按回车继续

技术分享

F11安装

技术分享

选择安装语言

技术分享

设置系统安装密码,需要最少7

技术分享

技术分享

确认安装,并提示如果安装将重建磁盘,点击F11确认

技术分享

技术分享

经过一段时间等待,安装成功。点击回车重启。

技术分享

重启

技术分享

重启之后会再次拷贝文件,也就是这两个页面

技术分享

技术分享

然后再次重启进入PXE分配ip进入系统(我们现在可以在这台虚拟化宿主机上建虚拟机继续使用了)

 技术分享

技术分享

以上步骤也可以连接戴尔服务器管理口(IDRAC)操作

【IP设置】

(1)最简单设置方法就是利用前面板的LCD加三个左右确认按钮,进入Setup->iDRAC->IP->子网掩码->网关->DNS设置(最后的DNS最好也设置一下)。在设置好之后,切记要按确认。

(2)如果想进入BIOS里面设置,开机按F2,System Settup->iDRAC Setting,在NIC Selectioin那里选一个网口(默认LOM1)。记录右边滑动条往下来才能看到设置IP地址,默认已经是172.12.0.171设置好。

可以在面板上查看 √ setup  IDRAC

【网络访问】

刚开始还以为按默认的172.12.0.171设置就可以,在本地服务器还是远程,怎么都登陆不上。

有几个原因如下:

(1) 首先,因为我们电脑是DHCP获取到192.168.x的IP,所以不可能到达172.12的网段。所以,我们把电脑的网卡设置为手动IP,然后点高级,将172.12.x的网段加进入。

iDRAC的全称为 Integrated Dell Remote Access Controller ,中文翻译为戴尔远程控制卡,一般位于服务器的后面,标注为iDRAC。开机运行时候可以通过机器前面的LCD控制面板对它进行IP的设定,然后就可以在本地的任何一台电脑上,在IE浏览器中输入刚才配置的IP地址,使用默认的用户名和密码(root /calvin)来操作这台电脑  ,默认用户名root,密码:calvin。(就算这台服务器刚开始的时候什么系统都没有),就像这服务器就在你面前一样 ,可以设置BIOS中的各项设置。例如现在我设置服务器的iDRAC 的 IP为172.16.136.171 ,连接上网线。在我本机上面,输入这个Ip地址,然后会出现下图:

技术分享

 

 

技术分享

 

服务器硬件问题导致虚拟机自动重启