Posted in: Aws云上云维
Amazon CloudWatch警报状态解析
工作中使用了Amazon CloudWatch服务,当收到警报时,如何正确判断并迅速定位解决故障,掌握CloudWatch警报的状态就显得尤为重要。AWS为我们提供了CloudWatch服务,可以创建CloudWatch 警报,当警报状态改变时,就会发送Amazon SNS(Simple Notification Service)消息。如下,CloudWatch警报的三个状态:
- OK – 指标位于规定的阈值范围内。
- ALARM – 指标达到或超规定的阙值。
- INSUFFICIENT_DATA – 警报刚刚开始;指标不可用;或指标数据不足以判断警报状态。
如下图:
警报阈值设为 3 且最小检测值为 3 个时间段,即,警报仅在连续 3 回达到或超越阈值时,发生警报。在此图表中,这种情况发生在第三个到第五个时间段中,且警报的状态设为 ALARM。在第六个时间段,数值下降到阈值以下,则状态变为 OK。之后,在第九个时间段中,阈值再次被打破,但不是必须的连续三个时间段。因此,警报状态仍保持为 OK。
INSUFFICIENT_DATA 是指不能从监视对象取到值时,返回的状态。即每次从监视对象读取一定的值与我们自己设定的阀值进行比较。当在规定的回数内无法取到值时,将发送INSUFFICIENT_DATA警报。
1.收到”INSUFFICIENT_DATA”邮件名的警报。
INSUFFICIENT_DATA: "Count of running processes splx – awsgood" in APAC - Tokyo
我们可以判断,awsgood实例上的SPLX服务是不是停止了。CloudWatch在规定的次数(比如5分钟一次取值,共3次)内没有取到值,因此返回来“INSUFFICIENT_DATA”状态。
2.收到”ALARM”邮件名的警报。
ALARM: "Count of running processes splx - awsgood " in APAC - Tokyo
我们可以判断,CloudWatch仍可以正常取到Awsok实例上Splx的值,但是所取的值达到或超过我们预设监视阀值,因此返回来“ALARM”状态。
3.收到”OK”邮件名的障害。
OK: "Count of running processes splx - awsgood " in APAC - Tokyo
我们可以判断,CloudWatch可以正常取到awsgood实例上SPLX的值,并且所取的值低于或者未达到我们预设监视阀值,因此返回来“OK”状态。
结束语:利用Amazon CloudWatch可方便快捷,监视AWS 实例各个资源使用状态。