首页 > 代码库 > 服务器硬件问题导致虚拟机自动重启
服务器硬件问题导致虚拟机自动重启
环境:Esxi虚拟化 宿主机上面跑两台机器(20.11,21.12),插两块300G的SATA硬盘
现象:监控页面在昨天半夜到今早经常出现空缺部分(感觉应该是机器重启了):
现象如下
排查:
1.首先在21.12这台机器上使用last命令查看重启情况(没来得及截图)但是确实是系统重启过
2.查看/var/log/messages日志,锁定8:27分的日志(也就是重启的时间段)
单从日志信息上看cpu不支持变频的问题,由于在操作系统和VCS日志中均没有发现其他异常,因此怀疑是服务器硬件出了问题,去机房一看,服务器住面板的故障灯显示红色
报错信息如下:PDR1101 FAULT delected on drive1.check drive
看着是drive1硬盘坏了,为了保险起见,找到快速服务代码,联系戴尔客服,客服解释是硬盘问题
由于这台服务器是之前同事上架的,并不知道raid级别,关闭这台服务器,再次开机摁ctrl+r,查看,发现做的是raid1(还算有良心,系统有同步的)
于是把坏的硬盘拔下去,在找到一块大小型号一样的服务器类型硬盘插上去(服务器使用的是dell cheetah 15k.7 300GB SATA)(虽然带有红色按钮的硬盘支持热插拔,但是并不建议开机的时候插拔,最好先关机)
这台机器是做的EXSI虚拟化,又是raid1,按照常理来说坏的硬盘拔下来,插上新的硬盘对系统不会有影响,虚拟机还能正常进去,但是当我在宿主机中打开21.12这台虚拟机的时候,报错(进不去了)
赶紧去机房重启宿主机服务器,发现系统进不去了,提示找不到,一直在PXE获取,但是没有系统可进
重启 修改硬盘为ACHI模式,ctrl+r 查看硬盘的状态,硬盘状态显示是online的,于是可以确定是第二块硬盘raid数据损坏了,导致系统都没了(看来raid1并不稳啊)
目前摆在眼前有两种解决办法 1.找专业的戴尔工程师修复数据备份,重装ESXI
2.重装EXSI
本机是测试环境,数据并不重要
但是环境比较重要,于是在其他宿主机分出一部分硬盘空间,联系同事临时部署个资管对应分支代码的环境给测试使用,我这头再重新安装ESXI
重启 ctrl+r进raid 做个raid1,然后清空之前硬盘的数据,开始初始化,等待大概二十分钟
接一个外接光驱,插入R720 ESXI镜像光盘,然后在重启,摁F11进bios UEFI 选择DVD USB模式启动
开始安装过程从镜像中拷贝文件
拷贝完成
进入安装过程,按回车继续
用户协议,点击F11接受并继续
选择安装位置
按回车继续
按F11安装
选择安装语言
设置系统安装密码,需要最少7位
确认安装,并提示如果安装将重建磁盘,点击F11确认
经过一段时间等待,安装成功。点击回车重启。
重启
重启之后会再次拷贝文件,也就是这两个页面
然后再次重启进入PXE分配ip进入系统(我们现在可以在这台虚拟化宿主机上建虚拟机继续使用了)
以上步骤也可以连接戴尔服务器管理口(IDRAC)操作
【IP设置】
(1)最简单设置方法就是利用前面板的LCD加三个左右确认按钮,进入Setup->iDRAC->IP->子网掩码->网关->DNS设置(最后的DNS最好也设置一下)。在设置好之后,切记要按确认。
(2)如果想进入BIOS里面设置,开机按F2,System Settup->iDRAC Setting,在NIC Selectioin那里选一个网口(默认LOM1)。记录右边滑动条往下来才能看到设置IP地址,默认已经是172.12.0.171设置好。
可以在面板上查看 √ setup IDRAC
【网络访问】
刚开始还以为按默认的172.12.0.171设置就可以,在本地服务器还是远程,怎么都登陆不上。
有几个原因如下:
(1) 首先,因为我们电脑是DHCP获取到192.168.x的IP,所以不可能到达172.12的网段。所以,我们把电脑的网卡设置为手动IP,然后点高级,将172.12.x的网段加进入。
iDRAC的全称为 Integrated Dell Remote Access Controller ,中文翻译为戴尔远程控制卡,一般位于服务器的后面,标注为iDRAC。开机运行时候可以通过机器前面的LCD控制面板对它进行IP的设定,然后就可以在本地的任何一台电脑上,在IE浏览器中输入刚才配置的IP地址,使用默认的用户名和密码(root /calvin)来操作这台电脑 ,默认用户名root,密码:calvin。(就算这台服务器刚开始的时候什么系统都没有),就像这服务器就在你面前一样 ,可以设置BIOS中的各项设置。例如现在我设置服务器的iDRAC 的 IP为172.16.136.171 ,连接上网线。在我本机上面,输入这个Ip地址,然后会出现下图:
服务器硬件问题导致虚拟机自动重启