首页 > 代码库 > 记一次dell R720服务器ESXI5.5系统宕机的奇葩经历

记一次dell R720服务器ESXI5.5系统宕机的奇葩经历

?记一次dell R720服务器ESXI5.5系统宕机的奇葩经历?

总结点:
1,  没看宕机的原因。
2,  无故重置bois。
3,  不看日志。
4,  Dell r720服务器 内存需要按照顺序插入,如:A1,A2,A3,A4。
5,  使用idrac远程管理页面。
6,  要有自己的判断问题思路,不要什么都依着400。
7,  对问题不重视,要不然就不会直接重启设备了。

失误点一:没看宕机的原因

17号下午5点多的时候,正用着服务器上的虚拟机工作时,mstsc窗口突然断开了。Pingping不通,我当时也没想什么,就直接冲到机房把服务器断电重启了,(服务器没有显示器,也没想到去看看什么情况)然后就回到工作台做其他事情了,过了大概10分钟,ping了下服务器,Ping不通,一想坏了,玩大了,我就去拿显示器,键盘去看看情况。一看情况

提示没有Raid,奇了怪了,本着客服至上的精神,就打了400400指导我看下硬盘,

物理硬盘各方面显示都很正常,状态也正常,所以400就告诉我硬件是没有问题,那就是软件导致的问题,也就是系统喽,让我重新做个raid0,重新装系统。可这问题没有解决,(要是听了400的,我的数据早都没了)。

这是第二天了18

失误点二:不应该去重置bios

最后跟400客服邮件探讨,400提示我说看看是不是启动项的问题,从硬盘启动试试,我就去试了从硬盘启动,显示DHCP……也就是没找到系统喽,我就挨着试,选择drive C终于成功了,

可以启动了,但是问题又来了。

启动到这个界面就卡住了,我一看当时想估计是bios设置问题把,我就去重置bios

接着重启,又在这个界面卡住了。然后我按了几下回车,到vkernel load success的时候就立马紫屏显示了。

看到这我就去上网查了一番,查到的方法:1,更新系统,用最新的,这个问题是右e网卡接收到大流量导致的。2,关闭bioscpuid3,开启VT功能

找到方法了,就去试试,

1,安装新系统,也是在这个界面就出现了紫屏,估计还是bios设置的问题,
2,bios里面就没有cpuid这个选项,
3,bios里面默认开启VT功能。

没办法就去求助了400

400让我提供这些错误的照片,我跟400说估计是我的bios里面设置有问题,然后他就让我配置下bios,主要是system profile settings这一项。

然后重启进入系统,还是在初始化界面卡住,然后进入紫屏

 

错误信息减少了,我更加相信是bios设置的问题,回到工作台,就到网上搜了下bios的设置(这个时间,400正在还原我说的问题),看下设置觉得自己设置的没有什么问题,这时候400来了,得出的结论说是我的系统光盘有问题,我第一时间回他说“光盘没有问题”,发过去一想,这问题不是在安装的时候出现的啊,就又回复了一个过去。说明下情况。又让我设置启动项,启动项跟400提供的设置项是一样的。

快要到下班的时候,400又发来一个信息。让我重新下载dell定制的esxi5.5定制的系统,并且在更新bios。今天就算浪费了一天,工作上的事都没干,就弄服务器了。

 19

重大发现:内存错误日志

今天以来我就打开了idrac,本想启动下设备,(开机进F2,一直按太累,就到网上搜了下远程管理的,就看到了这个idrac,也是在昨天捣鼓的,想看虚拟桌面,就必须要升级到企业版,升级就必须要买许可),就去看了下日志。

到网上搜下翻译,提示内存错误,建议操作重新拔插内存

把这个情况跟400说了下,确认是内存有问题,400让我把内存卡换换插槽,我就按照做了,重启设备,提示找不到内存,我里个心肝脾肺肾啊,只好重新拆机重新拔插,重新启动,系统可以进去了,哈哈。可是当我回到操作台去看的时候,发现内存只有8G。我可是有16G的,然后就去看日志(学乖了,知道看日志了)

这个显示A1A3没有检测到内存卡

屏幕也显示错误

这个错误显示A9A11内存功能关闭,提示内存要挨着放,

综合2个错误,把4个内存卡分别插在A1A2A3A4 4个插槽内(A4忘了在哪个地方了,就不标了,以免误导),这样重启设备,ESXi主机可以使用了。

历时11个小时。

注:
1,期间不停的按关机,启动进入F11,F2耗费的时间非常长,有时候按了不一定进入设置界面,有一次我连续4次重启设备都没又进入设置界面。这个操作浪费很多时间。
2,期间不停的想重做ESXi系统(客服一直让我重做系统试试),尝试了各种方法。浪费了很多时间


 


记一次dell R720服务器ESXI5.5系统宕机的奇葩经历