首页 > 代码库 > 关于监控内容定义
关于监控内容定义
监控是运维工程师避不开的环节,在灾难即将发生的时候可以有效的预防,例如磁盘空间的监控。
再者就是当问题出现的时候可以快速的定位,快速响应,解决问题。下面就监控的项目进行了简单
的分类整理,监控系统目前主流大家都使用的是zabbix,当然小米的也有在使用的。
监控项目:
系统健康监控:
系统层面:
1. 基础监控.
cpu指标: CPU使用率阀值70% 则报警
系统负载:阀值5 则报警 (业务量增加后适当调大)
内存:物理内存使用阀值 80% swap使用率阀值:20%
磁盘:各个分区监控阀值空间使用率阀值80%。
inode 节点阀值 80%
磁盘IO监控: 监控硬盘读写速度,繁忙 >70%报警
网卡监控: 网卡流量大于 300M
Tcp监控:
监控TCP连接状态数状态,TIME_WAIT > 2w 报警
ESTABLISHED > 6k 报警
2. 硬件监控:
使用ipmi工具获取温度传感器数据,大于60度告警
获取CPU,主板温度状态,大于60度。 防止温度过高引起宕机
获取磁盘温度状态,大于60度。 防止温度过高引起宕机
3. 网络设备: 交换机各个端口流量是否监控,交换机状态(CPU使用率)
路由器CPU使用率等状态
应用级别:
1.应用服务监控; zabbix agent
Java接口监控,nginx,redis状态监控等
mysql数据库监控
2.性能监控:
页面资源数量,DNS解析时间,首屏时间,加载最慢的资源
加载产生阻塞的JS
日志监控: elk elasticsearch + logstash + kibana)
业务监控:
每分钟的订单,每分钟注册,日活跃用户,短信使用量
网站的整体PV是多少?现在访问最多的页面是哪个?
Java接口调用次数
流量监控分析: 需要如何来做。
数据的可视化.很好的反映出业务的波动
关于监控内容定义