将应用接入AHAS应用防护后,您可以使用告警管理功能为目标应用配置相应的告警规则。当监控的指标超过设定的阈值时,系统会自动发送告警,以便您及时处理。本文介绍如何为接入的应用创建告警规则并对告警规则进行管理。

前提条件

已在AHAS控制台添加钉钉群作为联系人接收告警信息。具体详情,请参见配置告警联系人

功能入口

  1. 登录AHAS控制台,然后在页面左上角选择地域。
  2. 在控制台左侧导航栏中选择流量防护 > 应用防护
  3. 应用防护页面单击目标应用卡片。
  4. 在左侧导航栏中选择告警管理 > 告警规则

创建告警规则

您目前可以使用AHAS告警管理功能为指定的系统指标和状态码创建告警规则。

为系统指标创建告警规则

  1. 告警规则页面的系统指标页签下,单击新增告警规则
  2. 新增告警规则对话框中,完成以下参数的配置,然后单击新建
    参数 说明
    告警名称 自定义的告警名称。
    告警级别 分为通知、告警和严重三类。您可以根据实际情况选择相应的告警级别。
    告警条件 分为所有和任意两类:
    • 所有:当设置的触发条件全部满足时,系统会发送告警。
    • 任意:当设置的触发条件满足一条或以上时,系统会发送告警。
    是否开启
    • 打开是否开启开关:在告警规则创建完成时,规则立即生效。
    • 关闭是否开启开关:在告警规则创建完成时,规则不生效。您可以后续编辑,手动打开开关,使规则生效。
    触发条件 单击+添加触发条件,在弹出的新增告警触发条件对话框中,配置以下参数,然后单击添加,为告警规则创建相应的触发条件:
    • 资源类型:需进行告警的系统指标。具体包含的所有系统指标及其含义,请参见告警指标说明
    • 检测周期:对设置的触发条件进行检测的周期。单位为分钟,取值范围为1 min~60 min。假设检测周期设置为统计粒度5分钟,则意味系统会每5分钟进行一次检查,判断是否满足当前设置的告警触发条件。
    • 生效关系:所选资源类型和设定的告警阈值之间的关系。
    • 告警阈值:单位为%,取值范围为[0,100)。
    • 等待周期:首次告警后再次收到告警通知的时间间隔,取值范围为[0,100)。每个等待周期时长与检测周期时长相同。假设检测周期设置为统计粒度5分钟,且等待周期设置为首次告警等待2个周期,那么您在收到首次告警通知后,系统会等待10分钟,若10分钟后仍满足告警触发条件,则您会再次接收到告警通知。
    告警周期

    若满足告警规则的触发条件,且已经经过了告警等待周期之后,系统再次发送告警通知的时间间隔。

    假设您的某一告警规则设置如下:
    • 检测周期:统计粒度5分钟
    • 等待周期:首次告警等待1个周期
    • 告警周期:每5分钟告警一次
    那么当您第一次接收到告警之后,系统会先等待1个周期(也就是5分钟),如果此时问题仍然存在,您会收到第二次告警。如果问题依然持续,那么之后系统就会按照告警周期设置的每5分钟告警一次来发送告警通知。

为状态码创建告警规则

  1. 告警规则页面下,单击状态码页签,然后单击新增告警规则
  2. 新增告警规则对话框中,完成以下参数的配置,然后单击新建
    参数 说明
    告警名称 自定义的告警名称。
    告警级别 分为通知、告警和严重三类。您可以根据实际情况选择相应的告警级别。
    告警条件 分为所有和任意两类:
    • 所有:当设置的触发条件全部满足时,系统会发送告警。
    • 任意:当设置的触发条件满足一条或以上时,系统会发送告警。
    是否开启
    • 打开是否开启开关:在告警规则创建完成时,规则立即生效。
    • 关闭是否开启开关:在告警规则创建完成时,规则不生效。您可以后续编辑,手动打开开关,使规则生效。
    触发条件 单击+添加触发条件,在弹出的新增告警触发条件对话框中,配置以下参数,然后单击添加,为告警规则创建相应的触发条件:
    • 资源类型:需进行告警的状态码指标。具体包含的所有状态码指标及其含义,请参见告警指标说明
    • 检测周期:对设置的触发条件进行检测的周期。单位为分钟,取值范围为1 min~60 min。假设检测周期设置为统计粒度5分钟,则意味系统会每5分钟进行一次检查,判断是否满足当前设置的告警触发条件。
    • 生效关系:所选资源类型和设定的告警阈值之间的关系。
    • 告警阈值:单位为%,取值范围为[0,100)。
    • 等待周期:首次告警后再次收到告警通知的时间间隔,取值范围为[0,100)。每个等待周期时长与检测周期时长相同。假设检测周期设置为统计粒度5分钟,且等待周期设置为首次告警等待2个周期,那么您在收到首次告警通知后,系统会等待10分钟,若10分钟后仍满足告警触发条件,则您会再次接收到告警通知。
    告警周期

    若满足告警规则的触发条件,且已经经过了告警等待周期之后,系统再次发送告警通知的时间间隔。

    假设您的某一告警规则设置如下:
    • 检测周期:统计粒度5分钟
    • 等待周期:首次告警等待1个周期
    • 告警周期:每5分钟告警一次
    那么当您第一次接收到告警之后,系统会先等待1个周期(也就是5分钟),如果此时问题仍然存在,您会收到第二次告警。如果问题依然持续,那么之后系统就会按照告警周期设置的每5分钟告警一次来发送告警通知。
说明 目前告警事件和告警触发时间存在一分钟左右的误差,但不会影响数据采集。

为流量创建告警规则

  1. 告警规则页面的流量页签下,单击新增告警规则
  2. 新增告警规则对话框中,完成以下参数的配置,然后单击新建
    参数 说明
    告警名称 自定义的告警名称。
    接口名称 需输入真实接口名称。
    告警级别 分为通知、告警和严重三类。您可以根据实际情况选择相应的告警级别。
    告警条件 分为所有和任意两类:
    • 所有:当设置的触发条件全部满足时,系统会发送告警。
    • 任意:当设置的触发条件满足一条或以上时,系统会发送告警。
    是否开启
    • 打开是否开启开关:在告警规则创建完成时,规则立即生效。
    • 关闭是否开启开关:在告警规则创建完成时,规则不生效。您可以后续编辑,手动打开开关,使规则生效。
    触发条件 单击+添加触发条件,在弹出的新增告警触发条件对话框中,配置以下参数,然后单击添加,为告警规则创建相应的触发条件:
    • 资源类型:需进行告警的系统指标。具体包含的所有系统指标及其含义,请参见告警指标说明
    • 检测周期:对设置的触发条件进行检测的周期。单位为分钟,取值范围为1 min~60 min。假设检测周期设置为统计粒度5分钟,则意味系统会每5分钟进行一次检查,判断是否满足当前设置的告警触发条件。
    • 生效关系:所选资源类型和设定的告警阈值之间的关系。
    • 告警阈值:单位为%,取值范围为[0,100)。
    • 等待周期:首次告警后再次收到告警通知的时间间隔,取值范围为[0,100)。每个等待周期时长与检测周期时长相同。假设检测周期设置为统计粒度5分钟,且等待周期设置为首次告警等待2个周期,那么您在收到首次告警通知后,系统会等待10分钟,若10分钟后仍满足告警触发条件,则您会再次接收到告警通知。
    告警周期

    若满足告警规则的触发条件,且已经经过了告警等待周期之后,系统再次发送告警通知的时间间隔。

    假设您的某一告警规则设置如下:
    • 检测周期:统计粒度5分钟
    • 等待周期:首次告警等待1个周期
    • 告警周期:每5分钟告警一次
    那么当您第一次接收到告警之后,系统会先等待1个周期(也就是5分钟),如果此时问题仍然存在,您会收到第二次告警。如果问题依然持续,那么之后系统就会按照告警周期设置的每5分钟告警一次来发送告警通知。

为时延创建告警规则

  1. 告警规则页面的时延页签下,单击新增告警规则
  2. 新增告警规则对话框中,完成以下参数的配置,然后单击新建
    参数 说明
    告警名称 自定义的告警名称。
    接口名称 需输入真实接口名称。
    告警级别 分为通知、告警和严重三类。您可以根据实际情况选择相应的告警级别。
    告警条件 分为所有和任意两类:
    • 所有:当设置的触发条件全部满足时,系统会发送告警。
    • 任意:当设置的触发条件满足一条或以上时,系统会发送告警。
    是否开启
    • 打开是否开启开关:在告警规则创建完成时,规则立即生效。
    • 关闭是否开启开关:在告警规则创建完成时,规则不生效。您可以后续编辑,手动打开开关,使规则生效。
    触发条件 单击+添加触发条件,在弹出的新增告警触发条件对话框中,配置以下参数,然后单击添加,为告警规则创建相应的触发条件:
    • 资源类型:需进行告警的系统指标。具体包含的所有系统指标及其含义,请参见告警指标说明
    • 检测周期:对设置的触发条件进行检测的周期。单位为分钟,取值范围为1 min~60 min。假设检测周期设置为统计粒度5分钟,则意味系统会每5分钟进行一次检查,判断是否满足当前设置的告警触发条件。
    • 生效关系:所选资源类型和设定的告警阈值之间的关系。
    • 告警阈值:单位为%,取值范围为[0,100)。
    • 等待周期:首次告警后再次收到告警通知的时间间隔,取值范围为[0,100)。每个等待周期时长与检测周期时长相同。假设检测周期设置为统计粒度5分钟,且等待周期设置为首次告警等待2个周期,那么您在收到首次告警通知后,系统会等待10分钟,若10分钟后仍满足告警触发条件,则您会再次接收到告警通知。
    告警周期

    若满足告警规则的触发条件,且已经经过了告警等待周期之后,系统再次发送告警通知的时间间隔。

    假设您的某一告警规则设置如下:
    • 检测周期:统计粒度5分钟
    • 等待周期:首次告警等待1个周期
    • 告警周期:每5分钟告警一次
    那么当您第一次接收到告警之后,系统会先等待1个周期(也就是5分钟),如果此时问题仍然存在,您会收到第二次告警。如果问题依然持续,那么之后系统就会按照告警周期设置的每5分钟告警一次来发送告警通知。

管理已创建的告警规则

您可以在告警规则页面查看您所创建的告警规则,并对其进行管理,包括查看详细信息、更改生效状态、编辑和删除等。指标图
具体操作 说明
搜索目标告警规则 新增告警规则右侧的搜索框中输入告警规则名称即可进行搜索。支持使用关键词进行模糊搜索。
查看告警规则详情 单击目标告警规则一行左侧的1图标即可展开更多详情。框图
更改告警规则生效状态 打开或关闭状态列的开关即可更改告警规则生效状态。
编辑告警规则 单击操作列的编辑按钮即可在弹出的编辑告警规则的对话框中进行编辑。
注意 只有在告警规则处在未生效状态时,您才可以对其进行编辑。若想对处在生效状态的告警规则进行编辑,您需要先关闭其状态开关。
删除告警规则 单击操作列的删除按钮即可删除告警规则。
注意 只有在告警规则处在未生效状态时,您才可以进行删除操作。若想删除处在生效状态的告警规则,您需要先关闭其状态开关。

接收告警通知

告警规则创建成功后,若触发告警,系统会自动将告警通知推送到您指定的钉钉群中。

钉钉群内显示的告警通知示例如下:
图 1. 系统指标告警通知
系统指标告警通知
图 2. 状态码告警通知
状态码告警通知
图 3. 流量告警通知
1
图 4. 时延告警通知
时延

告警指标说明

目前AHAS告警管理功能中可用于创建告警规则的系统指标和状态码如下:
  • 系统指标:
    类型 说明
    system.cpu.total CPU资源平均使用率
    system.mem.used 内存资源平均使用率
    system.disk.partition.used 磁盘资源平均使用率
    system.load.1min 系统1min平均负载
    jvm.gc.old.count 老年代GC平均次数
    jvm.gc.old.time 老年代GC平均时长
    jvm.gc.young.count 年轻代GC平均次数
    jvm.gc.young.time 年轻代GC平均时长
    说明 CPU资源平均使用率、内存资源平均使用率和磁盘资源平均使用率的计算方式如下:
    • CPU资源平均使用率=等待IO完成的CPU使用率+系统CPU使用率+用户CPU使用率
    • 内存资源平均使用率=已使用内存量/总量
    • 磁盘资源平均使用率=已使用磁盘量/总量
  • 状态码:
    类型 说明
    status.200 状态为 200的接口平均请求数
    status.2xx 状态为 2xx的接口平均请求数
    status.total 接口请求数总量平均
    status.3xx 状态为3xx的接口平均请求数
    status.4xx 状态为4xx的接口平均请求数
    status.5xx 状态为5xx的接口平均请求数
    说明 接口平均请求数为该接口在各节点请求数总和的平均值。
  • 流量:
    类型 说明
    qps.exceptionMax 异常流量最大值
    qps.exceptionMin 异常流量最小值
    qps.exceptionAvg 异常流量平均值
    qps.exceptionStd 异常流量方差
    qps.exceptionP99 异常流量P99分位值
    qps.exceptionP95 异常流量P95分位值
    qps.exceptionP75 异常流量P75分位值
    qps.blockedMax 阻塞流量最大值
    qps.blockedMin 阻塞流量最小值
    qps.blockedAvg 阻塞流量平均值
    qps.blockedStd 阻塞流量方差
    qps.blockedP99 阻塞流量P99分位值
    qps.blockedP95 阻塞流量P95分位值
    qps.blockedP75 阻塞流量P75分位值
  • 时延:
    类型 说明
    rt.max 接口耗时最大值
    rt.min 接口耗时最小值
    rt.avg 接口耗时平均值
    rt.std 接口耗时方差
    rt.p99 接口耗时99分位值
    rt.p95 接口耗时95分位值
    rt.p75 接口耗时75分位值