为了及时发现并处理任务运行过程中的异常,Dataphin支持批量为任务配置报警规则,便于您及时发现并处理异常,同时提高了为任务配置监控报警规则的效率。本文为您介绍如何为实时任务配置监控告警规则。

背景信息

Dataphin支持批量配置监控报警规则,包括为批量任务或字段配置相同的监控报警规则、为单个任务或字段配置批量监控报警规则,提高了配置监控报警规则的效率。

同时,Dataphin支持为单个监控报警规则配置不同的接收人,并且给不同接收人可以指定不同的接收方式,以实现某任务相关人员都能收到报警信息。例如:

  • 为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
  • 为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
  • 为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。

前提条件

在执行操作前,请确认您已满足如下条件:
  • 已提交Basic项目中的任务至生产环境。
  • 已发布Dev项目中的任务至生产环境。具体操作,请参见租户内发布数据

使用限制

仅支持针对生产环境的任务进行配置监控报警规则。

为批量任务配置相同的监控规则

  1. 请参见入口介绍,进入运维中心。
  2. 按照下图指引,进入新建实时计算任务监控配置对话框。
    gaga
  3. 新建实时计算任务监控配置对话框,配置参数。
    1. 配置报警原因页面,选择报警原因。选择报警原因。报警原因及触发报警规则详细说明如下。
      报警原因 报警规则
      业务延时过高 当任务运行过程中的延时超过设定时间后,即可触发报警。
      TPS超过范围 当任务运行过程中的TPS(Transaction Per Second)超过设定的范围后,即可触发报警。
      失败频率超过配置 当任务运行过程中的失败频率超过设定的频率后,即可触发报警。
      数据滞留超过配置 当任务运行过程中的数据滞留超过设定的时间后,即可触发报警。
      checkpoint失败配置 当任务运行过程中的checkpoint连续失败超过设定的次数后,即可触发报警。
    2. 根据您选择的报警原因,配置实时任务监控规则的监控区间、接收配置等参数。
      aga
      参数 描述
      报警原因 为您展示上一步中已选择的报警原因。同时您也可以修改报警原因。
      规则配置 根据报警原因,配置告警规则:
      • 业务延时过高:需要指定业务延时超过多少时间后报警。
      • TPS超过范围:需要指定TPS超过那个范围后报警。
      • 失败频率超过配置:需要指定失败频率超过多少次每分钟后报警。
      • 数据滞留超过配置:需要指定数据滞留超过多少秒后报警。
      • checkpoint失败配置:需要指定checkpoint连续失败几次后报警。
      报警频率 通知报警信息给接收对象的频率。频率范围为1~59分钟/次。
      监控区间 设置实时任务监控规则任务运行情况的时间区间。您可以选择全天监控,也可以自定义监控时间段。
      接收配置 配置报警信息的接收人和接收方式。您可以在单个监控规则中配置不同的接收人,并且给不同接收人指定不同的接收方式:
      • 接收人包括责任人值班表自定义
        • 责任人:适用于需要报警给任务负责人的场景。
        • 值班表:适用于需要报警给值班人员的场景,以便及时处理异常。

          需要您提前完成值班表的创建,详情请参见新建值班表

        • 自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。
      • 接收方式包括钉钉、短信、电话和邮件。
        注意 选择接收人对应的联系方式。如何为接收人配置联系方式,请参见配置成员联系方式
      例如,一个任务触发失败告警,希望该任务相关人都能收到告警信息,但是告警强度有所区别,您可以采用如下配置:
      • 为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
      • 为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
      • 为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
    3. 选择监控项页签,选择需要配置监控规则的监控项(实时计算任务)后,单击确定
      fagag
      注意 单次配置最多支持选择20个监控项。监控项包括任务和逻辑表的字段。

为单个任务配置批量监控报警规则

  1. 请参见入口介绍,进入运维中心。
  2. 按照下图指引,进入新建实时计算任务监控配置对话框。
    faga
  3. 新建实时计算任务监控配置对话框,按照如下步骤配置参数。完成配置后,单击确定
    faga
    1. 在①区域选择需要配置监控规则的实时任务。
    2. 在②区域选择报警原因。报警原因及触发报警规则详细说明如下。
      报警原因 报警规则
      业务延时过高 当任务运行过程中的延时超过设定时间后,即可触发报警。
      TPS超过范围 当任务运行过程中的TPS(Transaction Per Second)超过设定的范围后,即可触发报警。
      失败频率超过配置 当任务运行过程中的失败频率超过设定的频率后,即可触发报警。
      数据滞留超过配置 当任务运行过程中的数据滞留超过设定的时间后,即可触发报警。
      checkpoint失败配置 当任务运行过程中的checkpoint连续失败超过设定的次数后,即可触发报警。
    3. 在③区域配置监控区间、接收配置等参数。
      参数 描述
      报警原因 为您展示区域②中已选择的报警原因,并为报警原因配置报警规则。
      报警频率 通知报警信息给接收对象的频率。频率范围为1~59分钟/次。
      监控区间 设置任务监控规则任务运行情况的时间区间。您可以选择全天监控,也可以自定义监控时间段。
      接收配置 配置报警信息的接收人和接收方式。您可以在单个监控规则中配置不同的接收人,并且给不同接收人指定不同的接收方式:
      • 接收人包括责任人值班表自定义
        • 责任人:适用于需要报警给任务负责人的场景。
        • 值班表:适用于需要报警给值班人员的场景,以便及时处理异常。

          需要您提前完成值班表的创建,详情请参见新建值班表

        • 自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。
      • 接收方式包括钉钉、短信、电话和邮件。
        注意 选择接收人对应的联系方式。如何为接收人配置联系方式,请参见配置成员联系方式
      例如,一个任务触发失败告警,希望该任务相关人都能收到告警信息,但是告警强度有所区别,您可以采用如下配置:
      • 为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
      • 为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
      • 为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。

查看及管理已生成的监控报警规则

实时监控页面展示已配置的实时监控的任务名称和ID、报警原因、创建人、接收方式、接收人、最后修改时间、监控开关的状态信息。teat
操作 描述
筛选 在上图的模块①区域,您可以指定报警原因、接收方式、创建人或接收人作为筛选条件,快速高效的定位目标,查看监控配置的详情。
筛选项包括:
  • 报警原因:包括业务延时过高、TPS超过范围、失败频率超过配置、数据滞留超过配置和checkpoint失败配置。
  • 接收方式:包括电话、短信、钉钉和邮件。
  • 创建人:即创建该条监控规则的用户。
  • 接收人:即每条监控规则中配置的告警接收对象。

如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。

单节点操作 在图的模块②区域,编辑、删除监控规则和开启或关闭监控开关。
批量操作 在图的模块③区域,批量删除监控报警规则、开启或关闭监控开关。同时您可以单击接收人显示框后,新增、删除和替换自定义接收人及修改接收配置。

批量操作的权限限制,请参见运维中心权限列表

后续步骤

您可以在告警中心查看所有的告警事件。如何查看告警事件,请参见告警事件