首页 > 代码库 > 排错思路
排错思路
1.服务器遇到故障如何排除?
http://blog.jobbole.com/36375/
必须先搞清楚故障的具体情况:
o 故障的表现是什么?无响应?报错?
o 故障是什么时候发现的?
o 故障是否可重现?
o 有没有出现的规律(比如每小时出现一次)
o 最后一次对整个平台进行更新的内容是什么(代码、服务器等)?
o 故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)?
o 基础架构(物理的、逻辑的)的文档是否能找到?
o 是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 … 什么都可以)
o 是否有日志可以查看?(日志管理工具比如Loggly、ELK、 Graylog…)
w 、last、 history查看有哪些用户在线,做过哪些操作。
ps查看有哪些进程、分辨出哪些该有的和不该有的。
netstat查看相关端口。
free、 uptime 、top查看一下cpu、内存。
日志!
2.服务器宕机了怎么办?
针对服务器可能发生的宕机情况,我们肯定要先设立应急预案。
财力允许的情况下,最好是为每一台服务器配备物理冗余。同步更新数据,故障发生及时切换。
故障发生后,第一位是恢复业务,第二位是排查。
首先,启动服务器,看是否能够登录,如果可以,可以通过如下方式进行检查。
a、是否是应用程序导致内存溢出或者泄露,out of memory导致;
b、是否是进程过多或者不断创建,耗尽资源导致;
c、是否是数据库程序死锁,连接数过多导致;
d、是否是应用程序异常导致;
e、是否是流量负载过大导致;
f、是否是遭受黑客入侵攻击导致;
g、是否是误操作导致;
可以通过查看系统日志来查看是否有异常登录现象的发生。当然了,如果连登录都无法完成,或者通过如上的处理方法都没能处理,那么,您就联系客服人员进行排查。当然了,了解具体问题所在,也就不成问题了。
3、web访问慢的,如何定位问题解决?
· 是否普遍较慢?检测先环节:单个浏览器的问题?电脑问题?电信运行商?
· 查看服务器的同时连接数,是不是同时连接人数太多,已经超过服务器的正常负载。
· 查看服务器的TCP连接情况,是不是被DDOS了。
· 查看服务器的内存使用量,是不是某个应用出现问题,造成内存泄漏了。
· 通过iostat、vmsta查看cpu的io,磁盘的读写速率。
· 查看各种日志。
· 数据库的链接情况。
· 程序本身。
层层检测,步步排查
本文出自 “拔电源的运维空间” 博客,请务必保留此出处http://zhangdj.blog.51cto.com/9210512/1887183
排错思路