云监控的监控报警可以用于提醒您及时处理问题或升级规格。后台云监控根据您配置的报警规则,判断资源的使用是否超过配置的阈值。如果超过,则通过短信、邮件、旺旺、钉钉机器人等方式通知相应的联系人。

步骤一:创建服务关联角色

首次使用云监控提供的监控报警功能时,消息队列 RocketMQ 版会自动为您创建服务关联角色 AliyunServiceRoleForOns,以此访问云监控的云资源。消息队列 RocketMQ 版服务关联角色的详情请参见服务关联角色

  1. 登录消息队列 RocketMQ 版控制台
  2. 在顶部菜单栏,选择目标地域。
  3. 实例列表页面,找到目标实例,在其操作列,单击详情
  4. 在左侧导航栏,单击监控报警(推荐)
  5. 服务关联角色对话框,单击确定
    SLR

步骤二:查看监控报表信息

  1. 登录消息队列 RocketMQ 版控制台
  2. 在顶部菜单栏,选择目标地域。
  3. 实例列表页面,找到目标实例,在其操作列,单击详情
  4. 在左侧导航栏,单击监控报警(推荐),并选择需要查看监控数据的资源。
    cloud_monitor
    • 如需查看实例的报警信息,请选择实例 > 监控报表。示例如下。instance_cloud_monitor
      说明

      消息保留时间

      此监控项表示当前集群中所有消息的最大存活时间,且只适用于铂金版实例。为保持消息系统持续的可用性,磁盘空间达到铂金版实例磁盘容量规格后,消息队列 RocketMQ 版会按照先进先出的策略删除存储时间最早的一批消息。

      您可凭借此监控项衡量您的铂金版实例集群的容量,作为升降配铂金版实例容量规格的参考。

      横轴表示时间点,纵轴表示消息保留时长。例如,横轴时间点显示为 21:00,这个时刻对应的纵轴取值为 10,则表示在 21:00 时刻铂金版实例的消息保留时长为 10 小时,如果您需将这些消息保留更长时间,那么您需要扩容磁盘。

      铂金版实例详情请参见计费概述

    • 如需查看 Topic 的报警信息,请选择 Topic > 监控报表。示例如下。topic_cloud_monitor
    • 如需查看 Group ID 的报警信息,请选择 Group > 监控报表。示例如下。gid_cloud_monitor
      说明

      消息堆积(个)

      此监控项表示该 Group ID 下所堆积的消息数量。详情请参见名词解释

您可以选择查看最近 1 小时、3 小时、6 小时、12 小时、1 天、3 天、7 天或 14 天的数据,也可以单击最右端的时间选择框,自定义要查看的时间段。

若您要自定义时间段,最长能查看最近 31 天的数据(超过 31 天的数据不保留),即时间选择框中的结束时间为当前系统时间,而开始时间最早可为 31 天前。若结束时间不是当前系统时间,则可查看 31 天内最长任意 7 天的数据。

说明 监控项的数据聚合周期为 1 分钟。

步骤三:设置报警规则

  1. 登录消息队列 RocketMQ 版控制台
  2. 在顶部菜单栏,选择目标地域。
  3. 实例列表页面,找到目标实例,在其操作列,单击详情
  4. 在左侧导航栏,单击监控报警(推荐),并选择需要查看监控数据的资源。
  5. 找到要设置报警的资源,在其操作列,单击设置报警
  6. 创建报警规则页面,设置报警规则和通知方式,详情请参见创建阈值报警规则
    设置报警规则
    说明 如需接收短信通知,您需登录云监控控制台,在概览页单击购买短信,购买相应的短信服务。

    消息队列 RocketMQ 版监控项说明如下表所示。

    监控项 单位 Metric Dimensions Statistics
    消息堆积 count ConsumerLag userId、instanceId、groupId Sum
    消息堆积(GroupID&Topic) count ConsumerLagPerGidTopic userId、instanceId、groupId、topic Sum
    消息保留时间 hour MessageRetentionPeriod userId、instanceId Minimum
    Consumer(GroupId)每分钟接收消息数量 count/min ReceiveMessageCountPerGid userId、instanceId、groupId Sum
    Consumer(GroupID&Topic)每分钟接收消息数量 count/min ReceiveMessageCountPerGidTopic userId、instanceId、topic、groupId Sum
    实例(Instance) 每分钟接收消息数的数量 count/min ReceiveMessageCountPerInstance userId、instanceId Sum
    Consumer(GroupId)每分钟接收消息的数量 count/min ReceiveMessageCountPerTopic userId、instanceId、topic Sum
    每分钟产生死信消息的数量(GroupId) count/min SendDLQMessageCountPerGid userId、instanceId、groupId Sum
    每分钟产生死信消息的数量(GroupID&Topic) count/min SendDLQMessageCountPerGidTopic userId、instanceId、groupId、topic Sum
    Producer(GroupId)每分钟发送消息的数量 count/min SendMessageCountPerGid userId、instanceId、groupId Sum
    Producer(GroupID&Topic)每分钟发送消息数量 count/min SendMessageCountPerGidTopic userId、instanceId、topic、groupId Sum
    实例(Instance)每分钟发送消息数量 count/min SendMessageCountPerInstance userId、instanceId Sum
    Producer(Topic)每分钟发送消息数量 count/min SendMessageCountPerTopic userId、instanceId、topic Sum
    在相应资源的报警规则配置页签,您可以查看到刚创建的报警规则信息。