首页 > 代码库 > 排错思路

排错思路

1.服务器遇到故障如何排除?

     http://blog.jobbole.com/36375/

必须先搞清楚故障的具体情况:

o    故障的表现是什么?无响应?报错?

o    故障是什么时候发现的?

o    故障是否可重现?

o    有没有出现的规律(比如每小时出现一次)

o    最后一次对整个平台进行更新的内容是什么(代码、服务器等)?

o    故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)?

o    基础架构(物理的、逻辑的)的文档是否能找到?

o    是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 … 什么都可以)

o    是否有日志可以查看?(日志管理工具比如Loggly、ELK、 Graylog…)

    w 、last、 history查看有哪些用户在线,做过哪些操作。

    ps查看有哪些进程、分辨出哪些该有的和不该有的。

    netstat查看相关端口。

    free、 uptime 、top查看一下cpu、内存。

    日志!


2.服务器宕机了怎么办?

针对服务器可能发生的宕机情况,我们肯定要先设立应急预案。

财力允许的情况下,最好是为每一台服务器配备物理冗余。同步更新数据,故障发生及时切换。

故障发生后,第一位是恢复业务,第二位是排查。

首先,启动服务器,看是否能够登录,如果可以,可以通过如下方式进行检查。

a、是否是应用程序导致内存溢出或者泄露,out of memory导致;

b、是否是进程过多或者不断创建,耗尽资源导致;

c、是否是数据库程序死锁,连接数过多导致;

d、是否是应用程序异常导致;

e、是否是流量负载过大导致;

f、是否是遭受黑客入侵攻击导致;

g、是否是误操作导致;

  可以通过查看系统日志来查看是否有异常登录现象的发生。当然了,如果连登录都无法完成,或者通过如上的处理方法都没能处理,那么,您就联系客服人员进行排查。当然了,了解具体问题所在,也就不成问题了。

 


3、web访问慢的,如何定位问题解决?

·        是否普遍较慢?检测先环节:单个浏览器的问题?电脑问题?电信运行商?

·        查看服务器的同时连接数,是不是同时连接人数太多,已经超过服务器的正常负载。

·        查看服务器的TCP连接情况,是不是被DDOS了。

·        查看服务器的内存使用量,是不是某个应用出现问题,造成内存泄漏了。

·        通过iostat、vmsta查看cpu的io,磁盘的读写速率。

·        查看各种日志。

·        数据库的链接情况。

·        程序本身。

层层检测,步步排查



本文出自 “拔电源的运维空间” 博客,请务必保留此出处http://zhangdj.blog.51cto.com/9210512/1887183

排错思路