本文为您介绍如何配置Prometheus监控报警。

操作步骤

  1. 登录实时计算统一控制台
  2. Flink全托管页签,单击对应工作空间操作列下的开发控制台
  3. 在左侧导航栏上,单击作业列表
  4. 单击目标作业名称。
    说明 请选择作业期望状态当前状态都为RUNNING的作业。
  5. 作业概览页面右上角,单击指标Metrics
  6. 在左侧导航栏上,单击AlertingAlerting
  7. 在左侧导航栏上,单击报警管理 > 报警策略管理
  8. 在页面右上角,单击创建报警 > PrometheusPrometheus
  9. 在报警对话框中,配置如下参数。相关信息
    配置项 说明
    报警名称 例如,网络接收压力报警。
    集群 选择要创建报警的Prometheus监控对应的集群
    类型 选择为grafana
    大盘 选择为Flink
    图表 按您的业务需要选择图表
    报警规则和历史 选中同时满足下述规则
    最近N分钟 例如:N=5时网络接收数据字节(MB)的平均值大于等于3时则报警。
    说明 一个Grafana图表中可能有A、B和C等多条曲线数据,您可根据需求设置监控其中的一条线。
    PromQL 编辑或重新输入PromQL语句。
    注意 PromQL语句中包含的$符号会导致报错,您需要删除包含$符号的语句中=左右两边的参数。例如:将sum (rate (container_network_receive_bytes_total{instance=~"^$HostIp.*"}[1m]))修改为sum (rate (container_network_receive_bytes_total[1m]))
    通知方式 Flink全托管支持短信、邮件和钉钉机器人三种通知方式。
    通知对象 全部联系组中单击联系人分组的名称,如果该联系人分组出现在已选联系组中,则设置成功。
  10. 单击保存