MaxCompute支持通过配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为您介绍作业超时报警的监控指标、配置方法及处理报警方式。

前提条件

在配置作业超时报警功能前,请您确认已开通阿里云 云监控服务。

背景信息

监控作业运行时长的指标如下。
指标名称 实现原理 适用场景
作业运行时长 以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 例如,专用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。您需要提前配置该监控指标,如果作业运行时间过长,可以及时检查是否存在资源紧张或作业计算量过大等问题。

如果项目存在需要长时间执行的作业,则不推荐配置该监控指标。例如Spark流式作业(spark.hadoop.odps.cupid.engine.running.type=longtime)。

作业运行时长_SQL类型 以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 例如生产项目,您需要提前配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。

配置监控告警

  1. 登录云监控控制台
  2. 创建报警联系人。
    更多创建报警联系人操作信息,请参见 创建报警联系人
  3. 创建报警联系组。
    更多创建报警联系组操作信息,请参见 创建报警联系组
  4. 在左侧导航栏,单击报警服务 > 报警规则
  5. 报警规则页面的阈值报警页签,单击创建报警规则
  6. 单击创建报警规则
  7. 创建报警规则页面,配置报警规则相关信息。
    请重点关注下表参数,其他报警规则参数配置,请参见 创建阈值报警规则报警规则
    配置项 参数 说明
    关联资源 产品 在下拉列表选择MaxCompute-通用
    资源范围 在下拉列表选择项目名称
    地域 在下拉列表选择目标MaxCompute项目所在地域。
    项目名称 在下拉列表选择目标MaxCompute项目。
    设置报警规则 规则描述 根据项目情况,在下拉列表选择监控指标类型为作业运行时长作业运行时长_SQL类型,并选择周期,配置规则为大于等于阈值

    例如,作业运行时长 1分钟周期 持续3个周期 最大值>=1800 seconds,表示报警服务每1分钟检查作业运行时长是否超过1800s,只检查3次。

处理报警

作业运行时长超过阈值后会触发报警,报警联系人会接收到报警通知。报警联系人可以按照如下流程处理报警:

  1. 进入MaxCompute管家的作业管理页面,基于报警通知中的InstanceID信息,查找到超时作业。

    更多进入作业管理页面操作信息,请参见作业管理

    更多查看具体作业操作信息,请参见查看具体作业运行详情

    查找作业
    说明 如果作业仍处于Running状态,请先判断是否需要继续运行,如有需要可选择终止作业。更多终止作业操作信息,请参见 终止作业
    • 如果作业是通过DataWorks节点提交的(上图中的DataWorks节点ID不为空),转2
    • 如果作业不是通过DataWorks节点提交的,转3
  2. 可选:进入DataWorks运维中心,查看作业的详细信息,并根据实际情况处理超时问题。
    更多通过DataWorks运维中心查看作业信息,请参见 查看周期任务
  3. 可选:在作业管理页面的Instance列表区域,单击操作列的Logview,查看作业的详细信息,并根据实际情况处理超时问题。
    更多Logview使用信息,请参见 使用Logview 2.0查看Job运行信息