云监控(CloudMonitor)是针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于获取阿里云资源的监控指标、探测互联网服务可用性以及针对指标设置警报。本文介绍通过云监控服务对E-MapReduce集群的核心组件服务状态进行监控,并通过电话、短信、邮件以及钉钉机器人进行报警。

查看监控数据

  1. 登录云监控控制台
  2. 在左侧导航栏中,单击云服务监控 > E-MapReduce
  3. E-MapReduce监控列表页面,单击集群ID操作中的监控图表
  4. 单击页面上方的时间范围快速选择或自定义时间范围。
    您可以查看各项监控指标。

新建报警规则

  1. 登录云监控控制台
  2. 在左侧导航栏中,单击云服务监控 > E-MapReduce
  3. E-MapReduce监控列表页面,单击待设置集群所在行的报警规则
  4. 单击右上角的创建报警规则这里新建报警规则。
    1. 关联资源区域,选择资源范围
      如果资源范围选择全部资源,则帐号中所有集群满足报警规则描述时,都会发送报警通知。如果选择集群,则只在选中的集群实例满足报警规则描述时,才会发送报警通知。如需创建分组维度规则,可以通过应用分组建立规则,详情请参见应用分组
    2. 设置报警规则区域,设置报警规则。

      根据参数设置报警规则,核心组件可以参见核心组件监控指标项,更详细的信息请参见报警规则参数说明

      例如,DataNode的HTTP端口不通,并且持续了5分钟,则可以按如下的方式一条告警规则,选择指标DataNodeHttpPortOpenrole
    3. 通知方式区域,设置通知对象报警级别
      告警针对的是联系人组,如果没有创建联系人组,可以单击快速创建联系人组进行新建。

      告警可以通过电话、短信、邮件、钉钉机器人多种方式组合来进行告警,其中电话报警需要先购买电话报警资源包。

    4. 单击确认

核心组件监控指标项

服务 指标 描述
HDFS NameNodeHttpPortOpen NameNode的HTTP端口(50070)是否正常。
DataNodeHttpPortOpen DataNode的HTTP端口(50075)是否正常。
DataNodeIpcPortOpen DataNode的IPC端口(50020)是否正常。
TotalDFSUsedPercent DFS总的空间使用百分比。
MaxDFSUsedPercent 所有DataNode的DFS最大使用百分比。
DataNodeDfsUsedPercent 单个DataNode的DFS使用百分比。
NumDeadDataNode DeadDataNode的个数。
说明 这个指标是通过NameNode的jmx获取的,有可能存在一种暂停的情况,就是DataNode和standby的NameNode的心跳进程停止了。
YARN ResourceManagerWebappPortOpen ResourceManager的Web端口(8088)是否正常。
NodeManagerHttpPortOpen NodeManager的HTTP端口(8042)是否正常。
NumUnhealthyNMs 不健康的NodeManager个数。
HIVE HiveServer2PortOpen HiveServer的端口(10000)是否正常。
MetastorePortOpen Hive MetaStore端口(9083)是否正常。
ZooKeeper ZKClientPortOpen ZooKeeper的Client端口(2181) 是否正常。
ZkOutstandingRequests 排队请求的数量,当ZooKeeper超过了其处理能力时,这个值会增大。
HBase HMasterHttpPortOpen HMaster的HTTP端口(16010)是否正常。
HMasterIpcPortOpen HMaster的IPC端口(16000)是否正常。
HRegionServerHttpPortOpen HRegionServer的HTTP端口(16030)是否正常。
HRegionServerIpcPortOpen HRegionServer的IPC端口(16020)是否正常。
说明 所有端口指标取值1表示通,0表示不通。