首页 > 代码库 > 两次服务器灾难事故的反思
两次服务器灾难事故的反思
假期真快,这都是第5天了,开始整合服务器版本的linux.其实可不必使用ubuntu service,使用Cent OS系统已经几年了,用着很稳定,也顺手;但近期二次没有必要的人为原因的宕机,不得不重新考虑现实情况.
本来8台服务器好好地跑着,没有什么问题;开发队伍中,有人抱怨不给root密码,不好部署程序,我管理上忙些,就把root密码给出了,这下子"灾难"来了,两个哥们动了系统配置文件,本意可能是开机启动程序,但在SSH下,直接拷贝了网页上的内容,粘贴进去了,事后我相当无语了,最后更让我无语的是,系统故障后,没有第一时间报告,私自改了N多东西,最严重后果,这台客户端服务器宕机,造成无法给客户演示系统.我是相当的无语,考虑不是故意的,加上这件事,在项目管理流程上出了问题,没有追责.
第二次的系统故障,更让我无语了,编译服务器直接死掉,究其原因,有人想升级编译器,导致系统死掉,话说回来:就算升级成功了,编译器版本和工程服务上不一致,程序也不能运行呀.不懂又在瞎搞,是一种工作态度问题.这次事件,更加显露了项目管理上的严重漏洞.反思良久,更改掉了所有系统的密码,规定,所有程序模块只要在开发机稳定运行,就算成功,往工程服务器上部署时,由专业人员统一部署与管理.
公司研发队伍初创,还不能和大公司的研发管理相比.
加之项目开发中,所有程序员的开发机使用ubuntu 14.04桌面版,为了更好适应这个现实情况,把部分服务器系统换成ubuntu server,主要是降低开发难度,建立一个完整的开发生态链:利用ubuntu简单,易用的特点,整合资源,建立一个上手快的开发环境.
更换了服务器系统后,由于些许的不同,必然面临一些新问题,程序打包,系统的克隆,这又减慢了项目的开发进度.管理流程不好,很致命的.再加上刚初建的研发队伍,人员之间需要磨合,项目风险加大了很多,不改革就会死掉,今年这个小长假,让我时间反思项目上的种种问题:
1.致命拖沓的采购,导致硬件不能生产调试,无法和软件联调.
2.软件人员的自我修养与业务技能低下问题.
3.项目总体进度缓慢的问题.
4.最致命的是公司不能按时发工资,人员积极性不高的问题.
5.公司过多申请项目材料整理,导致无效工作的问题.
6.整个公司对研发部门的重要性全然不知,基本上以做贸易的思想管理公司.
能解决的都是技术问题,其它公司层面的问题是个人无法解决的,人员离职率必然较大,种种原因说明,项目已经很危险了.做为一个项目的管理者,好提前预防这个风险,全力思考中.
本文出自 “LinuxQt济南高新区” 博客,请务必保留此出处http://qtlinux.blog.51cto.com/3052744/1560766
两次服务器灾难事故的反思