首页 > 代码库 > 一次问题处理后的处理流程总结

一次问题处理后的处理流程总结

缘由:

  接到电话nagios监控报警,api、url访问不ok。

处理后回顾了一下自己的处理流程并延伸了下思绪,以前所处理的游戏问题及网站打不开、打开慢的情况处理、排查的思路、步骤都是相通的。

现将思绪整理下。

PS:-----> ---<-- 起初应该就是访问不ok的问题才有的后续步骤

  • 需要确实是个别现象问题,还是多数问题

尽可能重现现象或模拟类似的操作情况发现有问题。

 

1.第一个使用的一般都是ping 

  • ping 服务器ip 来确定是否线路

1) ok,  表示线路ok,那么问题就有可能是服务宕机或者负载过高

2) 有丢包,表示带宽、线路不稳定(本次原因就是这个,服务异常把带宽占满)

3) 不通,有几种情况 服务器、负载、机柜、机房,一般都是负载过高,或者服务器宕机,后2者的情况没遇到过。

2.登录环境查看

  • 登录服务确认查看业务情况

ps 、 telnet、ss 、netstat 、lsof 等来确认服务状态

linux 、selinux 的状态查看

ping 测试服务器间通信

curl、wget 来确认url

3.流量、带宽情况

  • 流量、带宽查看(这个要不要放在第2的位置稍微纠结了一下)

这个可以通过监控工具查看。  ( 我们使用的监控工具是zabbix + nagios )

4. 宽带问题

以前遇到最多的还是长城宽带、铁通用户反馈的问题较多。

网络监控平台可以使用smokeping

5. 架构问题

这个需要看具体业务,看网络拓扑、看业务架构来确定是否有设计不合理的地方

6. 数据库问题

数据库的优化、慢查询日志查看(这个很重要慢查询记得开启)

7. 存储的问题

有些素材、图片之类的有些事放存储内地,所以给存储也加上了。

8. 未知原因

仅遇到过一次,重启服务器解决的。。。

 

一次问题处理后的处理流程总结