健康巡检定期对监控的服务进行连接测试,帮助您掌握服务的健康状况,及时发现异常,从而采取针对性的有效措施。您可以通过批量导入Prometheus监控的云服务数据,快速创建云服务巡检。

前提条件

您的服务已接入Prometheus监控。具体操作,请参见 容器服务Kubernetes版集群

创建云服务巡检

  1. 登录Prometheus控制台
  2. 在顶部菜单栏,选择地域。
  3. Prometheus监控页面,单击K8s集群名称。
  4. 在左侧导航栏,单击健康巡检
  5. 巡检页签右上角,单击云服务巡检
  6. 云服务巡检对话框,执行以下操作:
    1. 第1步页签下的选择要监控的云服务区域,选择要导入数据的云服务,然后单击下一步
      说明 Prometheus目前支持导入Alibaba Cloud Redis数据和Alibaba Cloud RDS数据。
      云服务巡检
    2. 第2步页签下,选择要导入的云服务数据,然后单击确定
      云服务巡检2

启用健康巡检报警

创建健康巡检后,系统将为其自动创建未启用的报警规则。您需要开启报警规则,以确保巡检异常时能收到报警通知。

  1. 在左侧导航栏,单击报警配置
  2. 在页面的报警名称列,找到健康巡检,在其右侧操作列,单击开启
    健康巡检报警规则

查看健康巡检大盘

创建健康巡检后,系统将为其自动创建Grafana大盘。您可以通过该大盘查看服务的健康指标。

  1. 在左侧导航栏,单击大盘列表
  2. 大盘列表页面的名称列,单击Blackbox-Exporter
    健康巡检大盘

编辑巡检

您可以编辑巡检的参数设置。

  1. 巡检页签下,找到要编辑的巡检,在其右侧操作列,单击编辑
  2. 编辑巡检对话框,设置巡检参数,单击链接测试测试连通性,然后单击确定
    编辑巡检
    关于巡检参数的说明如下。
    表 1. 巡检参数
    参数 描述
    检查点 巡检的检查点。请输入IP或者域名,例如11.113.2.1或者www.aliyun.com。
    巡检类型 巡检的类型。
    • HTTP
    • Ping
    • HTTPS
    • TCP
    端口 检查点对应的端口。
    频率 巡检的频率。
    • 每10s
    • 每30s
    • 每60s
    • 每120s

删除巡检

您可以删除不需要的巡检。

巡检页签下,您可以:
  • 删除单个巡检
    1. 在要删除的巡检的右侧操作列,单击删除
    2. 在提示对话框,单击确认
  • 批量删除巡检

    选择要删除的巡检,单击批量删除