Flink全托管支持配置作业运行的监控告警,作业运行过程中,如果触发了监控规则,系统会给您发送告警消息,便于您及时发现并处理异常。本文为您介绍如何在应用实时监控服务ARMS控制台上配置Prometheus监控报警。

前提条件

已开通应用实时监控服务ARMS,详情请参见开通和升级ARMS

背景信息

在ARMS产品中配置监控告警时,需要指定集群、类型、大盘和PromQL等信息,但此方式操作复杂、上手成本高、告警配置效率低。您可以在Flink全托管开发控制台,快速配置监控告警,操作简单、易用,效率高,详情请参见配置监控告警(在Flink全托管开发控制台配置)

操作步骤

  1. 登录实时计算控制台
  2. Flink全托管页签,单击对应工作空间操作列下的开发控制台
  3. 在左侧导航栏上,单击作业运维
  4. 单击目标作业名称。
    说明 请选择作业期望状态当前状态都为RUNNING的作业。
  5. 作业概览页面右上角,单击指标指标
  6. 在左侧导航栏上,单击AlertingAlerting
  7. 在左侧导航栏上,单击报警管理 > 报警策略管理
  8. 在页面右上角,单击创建报警 > PrometheusPrometheus
  9. 在报警对话框中,配置如下参数。相关信息
    配置项 说明
    报警名称 例如,网络接收压力报警。
    集群 选择目标集群
    类型 选择为grafana
    大盘 选择为Flink
    图表 按您的业务需要选择图表
    报警规则和历史 选中同时满足下述规则
    最近N分钟 例如:N=5时网络接收数据字节(MB)的平均值大于等于3时则报警。
    说明 一个Grafana图表中可能有A、B和C等多条曲线数据,您可根据需求设置监控其中的一条线。
    PromQL 编辑或重新输入PromQL语句。
    注意 PromQL语句中包含的$符号会导致报错,您需要删除包含$符号的语句中=左右两边的参数。例如:将sum (rate (container_network_receive_bytes_total{instance=~"^$HostIp.*"}[1m]))修改为sum (rate (container_network_receive_bytes_total[1m]))
    通知方式 支持短信、邮件和钉钉机器人三种通知方式。
    钉钉机器人报警设置方法,请参见设置钉钉机器人报警
    注意 安全设置请至少选中自定义关键词,且关键词至少设置为报警才能收到告警信息。
    通知对象 全部联系组中单击联系人分组的名称,如果该联系人分组出现在已选联系组中,则设置成功。
  10. 单击保存