首页 > 代码库 > 常用监控概念和术语讲解

常用监控概念和术语讲解

服务器性能监控:是指针对服务器系统的运行状态以及各项指标的监控,具体的监控指标请参考:可以监控到服务器的哪些性能指标?

通过自定义监控,您能随心所欲的监控您想监控的数据,如Memcached、Java虚拟机、论坛在线人数等等。

对各种监控项目支持自定义告警设置,这样您可以更加灵活的设置告警阈值,比如PING响应时间连续3次超过200ms,或者服务器CPU最近5分钟平均负载超过10。

通过URL回调功能,您可以让告警通知发送到您指定的URL,使您能更加灵活的处理告警消息

Ping监控是指对指定的服务器进行ICMP Ping检测,获得可用率报告以及响应时间、丢包率等的监控。

TCP监控是指通过TCP协议对服务器指定端口可用率及响应时间的监控。

FTP监控是指对FTP(File Transfer Protocol)服务器可用率及响应时间的监控。

网络运营商是指提供网络接入服务的机构,之前国内网络运营商为:联通、移动、电信、网通、铁通、卫通,经过合并后目前国内网络运营商为:中国移动、中国联通、中国电信。

站点监控是指通过特定标准网络协议对网站或服务器进行外部监控,它包括多种类型,具体请参考:站点监控包括哪些类型?

服务性能监控是指针对Apche/MySQL/Nginx/Lighttpd等服务端软件的运行状态以及各项指标的监控。

HTTP监控是指通过HTTP协议对站点的可用率及响应时间的监控。

DNS监控指对DNS(Domain Name System)域名解析服务器的可用率及响应时间的监控。

UDP监控是通过UDP协议对服务器指定端口的可用率及响应时间的监控。

SMTP监控是指对SMTP邮件服务器可用率及响应时间的监控。

++++++++++++++ 可用率
可用率是指,网站或者服务器可以正常访问的时间占总时间的百分比。
举个例子,比如网站首页在一天内总是可以正常访问,那么首页这一天的可用率为100%。

如果网站首页有9分钟无法访问,而一天共有1440分钟,那么首页的可用率为:
((1440 - 9) / 1440) * 100%,也就是99.37%。

日期         %可用率   故障时间
2017-01-27   100%     -
2017-01-26   99.37%    9分钟
2017-01-25   100%     -

++++++++++++++ 丢包率
丢包率是指丢失数据包数量占所发送数据包的比率。

++++++++++++++ 响应时间

首先,任何时候我们都希望响应时间越短越好,这意味着用户可以更快的访问您的站点或服务器。
 我们对响应时间进行了颜色的标注,它们的意思是:

    绿色:表示响应时间在正常范围,比较快;
    蓝色:表示响应时间有点慢,需要引起注意;
    黄色:表示响应时间比较慢,需要引起注意;
    红色:表示响应时间非常慢,需要想办法优化;

那么响应时间的具体定义是什么呢?它是指从用户对站点或服务器发送请求开始,一直到目标内容下载到用户端,这段时间就是响应时间。
对于网页/HTTP类型的站点监控,响应时间只针对网页本身,包括了从DNS解析、与网站服务器建立网络连接、网站服务器处理到下载网页内容等多个环节,详细记录了每次的检查快照,您可以通过这些数据来分析如何优化性能。您可以参考:HTTP响应时间详细分析
DNS域名解析  1.3ms
建立连接     19.59ms
服务器计算    26.24ms
下载内容      278.60ms
需要注意的是,网页的响应时间不包括网页中其它组件(比如CSS、Javascript脚本)的下载时间。
对于Ping类型监控,响应时间其实就是我们经常在命令行中用ping命令看到的time值,也就是我们常说的Ping值。

++++++++++++++++ CPU使用率
CPU使用率指CPU使用时间占CPU总运行时间的比率。
其中Linux/Unix操作系统将CPU使用率又分为:
    User Time   执行用户进程花费时间所占的比率;
    System Time 执行内核进程和中断花费时间所占比率;
    Wait IO     因为IO等待而使CPU处于空闲状态等花费时间所占比率;
    Idle        CPU处于空闲状态的时间所占比率;
User Time + System Time + Wait IO = 总使用率,而Windows操作系统中CPU使用只分使用状态和空闲状态,使用状态所占时间比率即为使用率。


+++++++++++++++ 故障率
故障率是指,项目在某段时间内故障时长占总时长的比例。
举个例子,某个项目的监测频率为2分钟,在10分钟内进行了5次监测,每次监测都有3个监测点(A、B、C)在执行任务。具体监测结果见下表,则
故障率=(2+0+0+0+0)/10=20%

      第一次监测   第二次监测   第三次监测   第四次监测    第五次监测
监测点A  不可用      可用        可用        可用        可用
监测点B  不可用      可用        可用        可用        可用
是否故障   是        否          否          否         否
故障时长  2分钟      0分钟       0分钟       0分钟       0分钟
    
注:
故障的定义:每次监测,所有监测点故障则记为该项目故障。
故障时长:每次监测结果为故障时,故障时长则加一个此次监测频率的时长。

++++++++++++++++++架构图
应用架构图最多有五层且顺序固定,从上到下分别为:网站层、网络层、服务层、存储层、物理层。每层包括的项目类型如下表:

网站层  http、网页性能管理
网络层  FTP、SMTP、Ping、traceroute、DNS、TCP、UDP
服务层  Apache、lighttpa、nginx、memcache、tomcat、IIS
存储层  Mysql、mongoDB、Redis、SQLserver、oracle
物理层  服务器性能

+++++++++++++++++平均可用率
平均可用率是指,监测点可用率的平均值。
举个例子,比如用户在“可用率统计-监测点数据”页面选择了西北地区&电信(如下图),包括3个监测点:西安电信99.86%、乌鲁木齐电信100%、兰州电信100%。则,
平均可用率=(99.86%+100%+100%)/3=99.95%

本文出自 “开发与运维” 博客,谢绝转载!

常用监控概念和术语讲解