文档

为定时SQL任务设置告警

更新时间:

日志服务定时SQL已内置监控规则模板,您只需添加对应的告警实例即可实时监控定时SQL任务,并可通过钉钉等渠道接收到告警通知。本文介绍设置告警的相关操作。

前提条件

已创建定时SQL任务。

  • 如果是将源Logstore中的数据通过定时SQL处理后存储到目标Logstore,请参见从Logstore到Logstore

  • 如果是将源Logstore中的数据通过定时SQL处理后存储到目标MetricStore中,请参见从Logstore到MetricStore

  • 如果是将源MetricStore中的数据通过定时SQL处理后存储到目标MetricStore中,请参见从MetricStore到MetricStore

步骤一:开启任务运行日志

  1. 登录日志服务控制台

  2. 在Project列表区域,单击目标Project。

    该Project为定时SQL任务所在的Project。

  3. 在页面左上方,单击概览图标。

    image

  4. 进入开通任务运行日志页面。

    • 如果您开未通过该Project的详细日志,则在服务日志页签中,单击开通服务日志

    • 如果您已开通过该Project的详细日志,则在服务日志页签中,单击服务日志图标。

  5. 设置如下参数,然后单击确定

    参数

    说明

    任务运行日志

    打开任务运行日志开关后,系统将在您指定的Project中自动创建一个名为internal-diagnostic_log的Logstore,用于存储定时SQL、MaxCompute投递、OSS投递、数据导入等任务的运行日志与错误日志。日志字段说明,请参见定时SQL任务运行日志

    日志存储位置

    开通任务运行日志功能后,需要选择日志的存储位置,即需要指定Project。可以设置为:

    • 自动创建(推荐)。

    • 当前Project。

    • 同一地域下的其他Project。

    开通任务运行日志后,如果定时SQL任务执行失败,您可以在指定Project下的internal-diagnostic_log Logstore中查看定时SQL任务的错误日志。其中定时SQL任务的错误日志的日志主题(__topic__)为scheduled_sql_alert。

步骤二:配置行动策略

  1. 登录日志服务控制台

  2. 进入行动策略管理页面。

    1. 在Project列表区域,单击任意的Project。

    2. 在左侧导航栏中,单击告警

    3. 选择通知策略 > 行动策略

  3. 找到目标行动策略(sls.app.scheduled_sql.builtin),单击修改

    您也可以创建新的行动策略用于告警通知。具体操作,请参见创建行动策略

  4. 编辑行动策略页面中,将请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置。

    如何获取钉钉群机器人的WebHook地址,请参见钉钉-自定义。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明

  5. 单击确认

步骤三:添加告警实例

日志服务已内置如下两种监控规则模板,您只需根据业务需求,添加对应的告警实例即可。两种告警实例的配置参数类似,此处以添加定时SQL任务执行延迟监控规则对应的告警实例为例。

  • 定时SQL任务执行错误监控:每5分钟检测一次,当定时SQL任务出现错误后,触发告警。

  • 定时SQL任务执行延迟监控:每5分钟检测一次,当定时SQL任务的延迟时间超过指定阈值后,触发告警。

  1. 登录日志服务控制台

  2. 在Project列表区域,单击目标Project。

    该Project为您internal-diagnostic_log Logstore所在的Project。

  3. 在左侧导航栏中,单击告警

  4. 告警规则页签中,单击新建告警右侧的image

  5. 单击从模板新建

  6. 从模板新建页签中,单击SLS定时SQL

  7. 单击定时SQL任务执行延迟监控

  8. 告警监控规则面板中,配置如下参数,单击确定

    参数

    说明

    规则名称

    告警监控规则的名称。

    检查频率

    日志服务根据您配置的频率对查询和分析结果进行检查。

    • 每小时:每小时检查一次查询和分析结果。

    • 每天:在每天的某个固定时间点检查一次查询和分析结果。

    • 每周:在周几的某个固定时间点检查一次查询和分析结果。

    • 固定间隔:按照固定间隔检查查询和分析结果。

    • Cron:通过Cron表达式指定时间间隔,按照指定的时间间隔检查查询和分析结果。Cron表达式的语法,请参见Cron表达式

      Cron表达式的最小精度为分钟,24小时制,例如0 0/1 * * *从00:00开始,每隔1小时检查一次。

    查询统计

    单击输入框,在查询统计对话框中,设置查询和分析语句。

    • 关联报表页签:选择监控仪表盘。

    • 高级配置页签:

      • 类型列表选择:

      • 选择类型日志库指标库,且设置了查询和分析语句时,您可以选择是否开启独享SQL。更多信息,请参见开启SQL独享版

        • 自动:默认不使用独享SQL。当遇到查询并发限制或者查询结果不精确时,自动尝试使用独享SQL再次查询。

        • 启用:始终使用独享SQL进行查询和分析。

        • 关闭:关闭独享SQL。

    配置多个查询统计时,您可以指定集合操作关联多个查询结果。更多信息,请参见多集合操作机制

    分组评估

    日志服务支持对查询和分析结果进行分组。更多信息,请参见分组评估

    • 标签自定义:日志服务根据您配置的字段对查询和分析结果进行分组。分组后,每个组单独评估触发条件。在每个检查周期内,查询和分析结果满足触发条件时,各个分组各自产生一条告警。

      支持设置多个字段。

    • 不分组:在每个检查周期内,满足触发条件时,只产生一条告警。

    • 标签自动:当您在查询统计中选择指标库(即监控时序数据的查询和分析结果)时 ,日志服务支持标签自动分组。

      分组后,每个组单独评估触发条件。在每个检查周期内,查询和分析结果满足触发条件时,各个分组各自产生一条告警。

    触发条件

    配置触发条件及严重度。

    • 触发条件

      • 有数据:当查询和分析结果中存在数据时,触发告警。

      • 有特定条数据:当查询和分析结果中存在N条数据时,触发告警。

      • 有数据匹配:当查询和分析结果中存在数据满足告警表达式时,触发告警。

      • 有特定条数据匹配:当查询和分析结果中存在N条数据满足告警表达式时,触发告警。

    • 严重度

      主要用于告警降噪控制和告警通知控制,即您在创建告警策略或行动策略时,可添加关于告警严重度的判断条件。更多信息,请参见设置告警严重度

      • 简单配置:直接选择告警严重度,则表示通过该规则产生的告警都为同一严重度。

      • 分条件配置:单击添加,分条件设置告警严重度。

    告警条件表达式的相关语法,请参见告警条件表达式语法

    添加标签

    日志服务允许您给产生的告警添加标识性属性,键值对格式。主要用于告警降噪控制和告警通知控制,即您在创建告警策略或行动策略时,可添加关于标签的判断条件。更多信息,请参见标签和标注

    添加标注

    日志服务允许您给产生的告警添加非标识性属性,键值对格式。主要用于告警降噪控制和告警通知控制,即您在创建告警策略或行动策略时,可添加关于标注的判断条件。更多信息,请参见标签和标注

    您还可以打开自动添加标注开关,系统自动在告警中添加__count__等信息。更多信息,请参见自动标注

    恢复通知

    打开恢复通知开关后,告警恢复时触发一条恢复告警。例如您创建了一个告警监控规则,用于监控各个主机的CPU指标,当CPU使用率超过95%时触发告警,主机CPU使用率下降为正常值(低于等于95%)后发送一条恢复通知。更多信息,请参见恢复通知

    高级配置>连续触发阈值

    连续多少次执行检查评估都满足触发条件时,才会触发一次告警。不满足触发条件时不计入统计。

    高级配置>无数据告警

    打开无数据告警开关后,如果查询和分析的结果(有多个时,进行集合操作后的结果)为无数据的次数超过连续触发阈值,则产生一条告警。更多信息,请参见无数据告警

    输出目标

    输出目标用于配置告警事件的输出位置,可以配置一个或多个输出目标。

    • 事件库:将告警事件写入到EventStore。

    • 云监控事件中心:将告警事件写入到云监控系统事件中心,通过云监控对告警进行管理和通知。

    • SLS通知:将告警事件输出到SLS的通知服务,通过告警策略、行动策略等对告警进行管理和通知。

    输出目标-事件库

    • 开启:打开事件库开启开关后,告警将写入到EventStore中。

    • 地域:告警写入的EventStore所属地域。

    • Project:告警写入的EventStore所属项目。

    • 事件库:告警写入的EventStore。

    • 授权方式

      • 默认角色:单击前往授权,根据界面提示完成授权,并扮演阿里云系统角色AliyunLogETLRole将告警写入目标EventStore。具体操作,请参见默认角色授权

      • 自定义角色:扮演自定义角色将告警写入目标EventStore,填写角色ARN。具体操作,请参见自定义角色授权

    输出目标-云监控事件中心

    • 开启:打开云监控事件中心开启开关后,告警将发送到云监控事件中心。更多信息,请参见查看系统事件

    输出目标-SLS通知

    • 开启:打开SLS通知开关后,告警将发送到SLS通知服务进行后续的管理和通知。

    • 告警策略

      极简模式

      • 日志服务默认使用SLS内置动态告警策略(sls.builtin.dynamic)进行告警管理。

      • 只需配置行动组。

        您配置行动组后,日志服务自动为您创建一个名为规则名称-行动策略的行动策略。由该告警监控规则触发的所有告警都通过该行动策略发送通知。如何配置,请参见通知渠道说明

        重要

        您可以在行动策略管理页面,修改该行动策略。具体操作,请参见创建行动策略。如果您在修改行动策略时添加了判断条件,则此处的告警策略将自动变更为普通模式

      普通模式

      • 日志服务默认使用SLS内置动态告警策略(sls.builtin.dynamic)进行告警管理。

      • 选择内置的或自定义的行动策略进行告警通知。如何创建行动策略,请参见创建行动策略

      • 重复等待:在重复等待时间内,重复的告警只触发一次行动策略,即只发送一次告警通知。

      高级模式

      • 选择内置的或自定义的告警策略进行告警管理。如何创建告警策略,请参见创建告警策略

      • 选择内置的或自定义的行动策略进行告警通知。如何创建行动策略,请参见创建行动策略。还可以开启或关闭自定义行动策略。更多信息,请参见动态行动策略机制

      • 重复等待:在重复等待时间内,重复的告警只触发一次行动策略,即只发送一次告警通知。

  9. 添加完成后,您可以在监控规则列表中,单击定时SQL任务执行延迟监控规则对应的+,查看已开启的告警实例。Scheduled SQL告警

  • 本页导读 (1)
文档反馈