您可以通过设置报警规则来定义报警系统如何检查监控数据,并在监控数据满足报警规则时发送报警通知。如果您对重要监控指标设置报警规则,则可在第一时间得知指标异常,并迅速处理故障。

背景信息

  • 报警规则存在沉默期,当您的报警规则发生异常时,为避免报警风暴,24小时内只会发送一次报警通知。
  • 云监控默认将您的阿里云账号添加为报警联系人,并自动为其创建报警联系组。

操作步骤

  1. 创建报警联系人。
    1. 登录云监控控制台
    2. 在左侧导航栏,单击报警服务 > 报警联系人
    3. 报警联系人页面,单击新建联系人
    4. 设置报警联系人页面,输入报警联系人姓名、手机号码、旺旺、邮箱和钉钉机器人。
      当您输入手机号码和邮箱时,需要进行验证,防止由于信息填写错误,而导致无法及时收到报警通知。
    5. 单击保存
  2. 创建报警联系组。
    1. 报警联系人页面,单击报警联系组页签。
    2. 报警联系组页面,单击新建联系组
    3. 新建联系组页面,输入组名,并选择已有联系人。
    4. 单击确定
  3. 创建报警规则。
    1. 在左侧导航栏,单击报警服务 > 报警规则
    2. 报警规则列表页面,单击创建报警规则
    3. 创建报警规则页面,配置关联资源、报警规则和通知方式。
      报警规则的相关参数如下表所示。
      参数 说明
      产品 云监控可管理的产品名称。例如:云服务器ECS。
      资源范围 报警规则的作用范围,分为实例全部资源
      • 全部资源:表示该规则作用在用户名下对应产品的全部实例上。例如:您设置了全部资源粒度的MongoDB CPU使用率大于80%报警,则只要用户名下有MongoDB CPU使用率大于80%,就会发送报警通知。资源范围选择全部资源时,报警的资源最多1000个,超过1000个可能会导致达到阈值不报警的问题,建议您使用应用分组按业务划分资源后再设置报警。
      • 实例:表示该规则只作用在某个具体实例上。例如:您如果设置了实例粒度的主机CPU使用率大于80%报警,则当该实例CPU使用率大于80%时,会发送报警通知。
      规则名称 报警规则的名称。
      规则描述 报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。例如:规则描述为CPU使用率5分钟平均值>=90%,则报警服务会5分钟检查一次数据是否满足平均值>=90%。
      以主机监控为例,单个服务器监控指标15秒上报一个数据点,5分钟有20个数据点。报警规则如下:
      • CPU使用率5分钟平均值>90%, 含义是CPU使用率5分钟的20个数据点平均值大于90%。
      • CPU使用率5分钟总是>90%, 含义是CPU使用率5分钟的20个数据点全部大于90%。
      • CPU使用率5分钟只要有一次>90%,含义是CPU使用率5分钟的20个数据点至少有1个大于90%。
      • 公网流出流量5分钟总计>50MB ,含义是公网流出流量5分钟的20个数据点求和结果大于50MB。
      通道沉默周期 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
      生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
      通知对象 发送报警的联系人组。
      报警级别
      • 电话+短信+邮件+钉钉机器人
      • 短信+邮件+钉钉机器人
      • 邮件+钉钉机器人
      邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
      报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
    4. 单击确认