告警

1.介绍

告警提供了对集群内的监控数据以及服务有异常时的告警功能。告警分为指标告警服务告警指标告警可以对监控页面中的指标创建自定义告警,服务告警则是套件内组件运行异常时会自动触发的告警,在套件安装时已经创建,无需手工干预。

2.使用

2.1入口

套件首页点击运维中心卡片,并一次点击进入上侧的监控告警、左侧边栏的告警图标,即可进入告警页面。

注意:如果找不到入口则是权限不足,请使用具有Administrator角色权限的账户登录。

2.2指标告警

告警首页默认呈现的即指标告警页面。指标告警根据监控页面中定义的指标创建相应告警。

2.2.1创建指标告警

点击【创建告警】按钮,在弹出的创建告警对话框中,依次选择或填入内容即可创建相应指标报警。

  • 告警名称:必填,输入的名称最好能够表征相应告警的内容,如创建tbds-10-254-83-16机器CPU1的1分钟平均负载,则可以命名为tbds-10-254-83-16_CPU1_1分钟平均负载

  • 是否开启:告警是否开启的开关。在某些情况下想暂时关闭告警则可以把该选项置为关闭状态。

  • 通知方式:复选项,定义告警时的通知方式。每次告警同时还会发站内信给接收人。

  • 接收人:告警的汇报对象。

  • 指标分类:必选项,告警的具体指标名称。

    • 全部服务:指标的分类列表,与监控页面的监控指标分类一致。选择某一分类后旁边的下拉框可选择具体的指标名称。

    • 指标名称:某一指标分类中的指标名称列表,与监控页面的监控指标分类一致。

    • 指标维度:某些指标具有额外的指标维度,比如当选择硬件指标分类中的内存使用_总量指标时,下方会出现指标维度选项。在第一个下拉框中选择host_name维度,在第二个下拉框中选择具体的指标维度值,如tbds-10-254-83-16,选择*表示全选(全选功能在套件4.0.4.1及以后的版本中可用)。指标是否具有指标维度与指标的定义有关,指标定义在监控页面。

  • 告警条件:分为阈值、同比、环比三种方式。

    • 阈值:设定告警触发的数值。

    • 同比:与上一天同一时刻相比增长的百分比(可以为负数)。

    • 环比:与上一指标检测周期相比增长的百分比(可以为负数)。 对于上面每一种方式,可以分别定义区间外小于大于三种告警方式。

  • 检测周期:检查告警指标的时间间隔,默认为1分钟,即每1分钟就会去检查定义的告警是否符合触发条件。

2.2.2指标告警的查询、过滤和列表展示

指标告警首页列出了所创建的指标告警及其当前状态,用户可在搜索框中输入告警名称指标名称进行模糊查询,也可使用指标状态指标分类下拉框进行过滤。

2.2.3指标告警的删除、修改和开启、关闭

在指标告警首页可以对列出的告警进行编辑和删除,并可选择关闭或开启其告警,如下图所示。

2.2.4指标告警记录

告警首页点击【告警记录】按钮可进入告警记录页面,在该页面可以根据时间范围、告警接收人和指标名称进行搜索,也可使用指标分类下拉框进行过滤。

告警记录也可在在套件的站内信中查看。

2.3服务告警

在告警首页右上侧点击【服务告警】即进入服务告警页面。服务告警是在套件组件安装时预定义好的,无法修改,主要针对套件各个组件的运行状态。

2.3.1服务告警的查询、过滤和列表展示

服务告警首页列出了所创建的服务告警及其当前状态,用户可在搜索框中输入告警名称服务名称进行模糊查询,也可使用指标状态指标分类下拉框进行过滤。

2.3.2服务告警的修改和开启、关闭

在服务告警首页可以对列出的告警进行编辑,并可选择关闭或开启其告警,如下图所示。

2.3.3服务告警记录

参考2.2.4指标告警记录**服务告警记录指标告警记录**页面是同一个,服务告警记录也可在在站内信中查看。

2.4告警通知的发送策略

某一告警被触发后,为防止连续不断的发送大量重复告警,告警信息的发送间隔是和检测周期成倍数关系增长的,如检测周期是1分钟,则触发告警后会在第1分钟,第12分钟,第12*2分钟...发送告警通知。

2.5告警的消除策略

某一告警被触发后,只有在连续两个检测周期都发现告警不符合触发条件后才会解除告警状态。

Last updated

Was this helpful?