监控与报警_人工智能平台 PAI(PAI)-阿里云帮助中心

DLC支持查看并监控资源状况，并且提供了全面详细的监控指标，帮助您更好地掌握资源负载情况。通过监控报警功能，您可以对分布式训练（DLC）任务的资源水位进行实时监控，并灵活地配置报警规则和报警通知。如果资源水位出现波动，例如低于GPU使用率超过设定阈值，则会发送报警通知。本文为您介绍如何查看监控数据、配置监控报警通知、订阅监控指标。

前提条件

设置DLC的监控与报警，您需要先创建一个或多个分布式训练（DLC）任务，详情请参见创建训练任务。

使用限制

功能分类	支持的资源类型	支持的地域
DLC	灵骏智算资源	华北6（乌兰察布）新加坡

查看监控数据

监控大盘

登录云监控控制台。
在左侧导航栏，选择可视化（Dashboard） > 云产品大盘。
在云产品大盘页面，选择PAI-分布式训练（DLC）。在实例ID搜索框内，选择或搜索DLC任务ID，对应的监控图表会在页面下方展示。在对应监控图表中，可以进行以下操作：
- 切换监控维度：目前支持作业维度、POD（Worker）维度及GPU维度的监控指标展示。单击POD维度，您可以选择或输入POD ID，查看单个POD的监控数据视图。
- 切换展示时间范围：
- 放大视图：您可以单击每个图表右上角的放大按钮，查看监控数据的细节视图。

监控指标及说明

监控指标主要包括CPU、内存、磁盘、网络、RDMA、CPFS，以及GPU相关指标，如显存使用率、算力使用率、SM设备使用率、PCIe及NVLink接收/发送数据量等。当前维度主要支持：作业（任务）维度、Pod（Worker）维度和GPU单卡维度。下面是一些典型的健康指标，全量指标列表及细节说明请参见分布式训练（DLC）指标列表。

作业（任务）维度

监控指标	描述
CPU使用率（作业维度）	指定作业的CPU使用百分比。
内存使用率（作业维度）	指定作业的内存使用百分比。
磁盘读取数据量（作业维度）	指定作业的磁盘读取数据量（MB）。
磁盘写入数据量（作业维度）	指定作业的磁盘写入数据量（MB）。
网络接收数据量（作业维度）	指定作业的网络接收数据量（MB）。
网络发送数据量（作业维度）	指定作业的网络发送数据量（MB）。
GPU算力使用率（作业维度）	指定作业的GPU算力使用率。
GPU显存使用率（作业维度）	指定作业的GPU显存使用率。
GPU SM设备使用率（作业维度）	指定作业的GPU SM设备使用率。
GPU设备功耗（作业维度）	指定作业的GPU设备功耗。
GPU温度（作业维度）	指定作业的GPU温度。
GPU整卡健康情况（作业维度）	指定作业的包含的GPU整体健康情况（100%为健康，低于100%则存在部分卡异常）。
RDMA接收数据量（作业维度）	指定作业的RDMA接收数据量。
RDMA发送数据量（作业维度）	指定作业的RDMA发送数据量。
CPFS写入数据量（作业维度）	指定作业的CPFS设备写入数据量（MB）。
CPFS读取数据量（作业维度）	指定作业的CPFS设备读取数据量（MB）。
NVLink接收数据量（作业维度）	指定作业的GPU设备NVLink上的接收数据量。
NVLink发送数据量（作业维度）	指定作业的GPU设备NVLink上的发送数据量。
PCIE接收数据量（作业维度）	指定作业的GPU设备PCIe上的接收数据量。
PCIE发送数据量（作业维度）	指定作业的GPU设备PCIe上的发送数据量。
更多指标，请参考分布式训练（DLC）指标列表。

Pod（Worker）维度

监控指标	描述
CPU使用率（Pod维度）	指定Pod的CPU使用百分比。
内存使用率（Pod维度）	指定Pod的内存使用百分比。
磁盘读取数据量（Pod维度）	指定Pod的磁盘读取数据量（MB）。
磁盘写入数据量（Pod维度）	指定Pod的磁盘写入数据量（MB）。
网络接收数据量（Pod维度）	指定Pod的网络接收数据量（MB）。
网络发送数据量（Pod维度）	指定Pod的网络发送数据量（MB）。
GPU算力使用率（Pod维度）	指定Pod的GPU算力使用率。
GPU显存使用率（Pod维度）	指定Pod的GPU显存使用率。
GPU SM设备使用率（Pod维度）	指定Pod的GPU SM设备使用率。
GPU设备功耗（Pod维度）	指定Pod的GPU设备功耗。
GPU温度（Pod维度）	指定Pod的GPU温度。
GPU整卡健康情况（Pod维度）	指定Pod的包含的GPU整体健康情况（100%为健康，低于100%则存在部分卡异常）。
RDMA接收数据量（Pod维度）	指定Pod的RDMA接收数据量（MB）。
RDMA发送数据量（Pod维度）	指定Pod的RDMA发送数据量（MB）。
CPFS写入数据量（Pod维度）	指定Pod的CPFS设备写入数据量（MB）。
CPFS读取数据量（Pod维度）	指定Pod的CPFS设备读取数据量（MB）。
NVLink接收数据量（Pod维度）	指定Pod的GPU设备NVLink上的接收数据量。
NVLink发送数据量（Pod维度）	指定Pod的GPU设备NVLink上的发送数据量。
PCIE接收数据量（Pod维度）	指定Pod的GPU设备PCIe上的接收数据量。
PCIE发送数据量（Pod维度）	指定Pod的GPU设备PCIe上的发送数据量。
更多指标，请参考分布式训练（DLC）指标列表。

GPU单卡维度

监控指标	描述
GPU显存设备接口使用率（卡维度）	指定Pod的单张/多张卡的GPU显存设备接口使用率。
GPU SM设备使用率（卡维度）	指定Pod的单张/多张卡的GPU SM设备使用率。
GPU设备功耗（卡维度）	指定Pod的单张/多张卡的GPU设备功耗。
GPU温度（卡维度）	指定Pod的单张/多张卡的GPU设备温度。
GPU整卡健康情况（卡维度）	指定Pod的单张/多张卡的GPU整体健康情况（100%为健康，低于100%则存在部分卡异常）。
更多指标，请参考分布式训练（DLC）指标列表。

配置监控报警通知

通过监控报警功能，您可以监控分布式训练（DLC）任务的资源水位，并灵活地配置报警规则。如果资源水位出现波动，例如低于配置的报警规则时，则会发送报警通知。本章节为您介绍如何通过云监控控制台和API的方式，配置监控报警功能。

通过控制台配置报警通知

步骤一：配置报警联系人

创建报警联系人。
1. 登录云监控控制台。
2. 在左侧导航栏，选择报警服务 > 报警联系人。
3. 在报警联系人页签，单击创建联系人。
4. 在设置报警联系人面板，填写报警联系人的姓名、手机号码、邮箱和Webhook地址，其他参数均保持默认值。
  说明
  报警通知信息语言默认为自动，表示云监控根据当前阿里云账号注册时的语言，自动适配报警通知信息的语言。
5. 信息验证无误后，单击确认。
创建报警联系组。
1. 登录云监控控制台。
2. 在左侧导航栏，选择报警服务 > 报警联系人。
3. 单击报警联系组页签。
4. 在报警联系组页签，单击新建联系人组。
5. 在新建联系人组面板，填写报警联系人组的组名，并选择已有报警联系人。
6. 单击确认。

步骤二：配置报警规则

在云监控控制台的左侧导航栏，选择云资源监控 > 云产品监控。
在云产品监控页面，搜索并进入PAI-分布式训练（DLC）。
在PAI-分布式训练（DLC）页面，选择服务所在的地域，并单击创建报警规则。
说明
目前，仅支持在华北6（乌兰察布）和新加坡地域设置PAI分布式训练（DLC）的监控报警。

在创建报警规则面板，配置下列参数，并单击确认。

参数	描述
产品	云监控管理的产品名称，选择PAI-分布式训练（DLC）。
资源范围	报警规则的作用范围，目前支持全部资源、实例（作业）：全部资源：DLC的任何资源满足报警规则，都会发送报警通知。实例：您需要选择关联资源（即DLC任务ID），仅选中的单个或多个DLC作业满足报警规则时，才发送报警通知。
规则描述	报警规则主体，当监控数据满足指定条件时，触发报警规则。规则描述的设置方法如下：单击添加规则。在设置规则描述面板，设置规则名称、指标类型、监控指标、阈值及报警级别和报警方式等。规则名称：自定义规则名称。指标类型：单指标、多指标。监控指标：指标类型，包括作业、Pod或GPU维度指标。若资源范围选择了实例，同时监控指标选择Pod维度的指标，您可以选择Pod ID，对单个或多个Pod进行监控。若资源范围选择了实例，同时监控指标选择GPU维度的指标，您可以选择GPU ID，对单张或多张GPU卡进行监控。阈值及报警级别：根据紧急、警告、普通级别，配置监控周期和阈值。报警方式：支持电话、短信、邮件和钉钉WebHook等。单击确定。
通道沉默周期	报警发生后如果未恢复正常，间隔多久重复发送一次报警通知。
生效时间	报警规则的生效时间。报警规则只在生效时间内才会检查监控数据是否需要报警。
报警联系人组	发送报警的联系人组，选择已绑定报警联系人的报警组。
标签	自定义设置报警规则的标签。包括标签名称和标签值。

在PAI-分布式训练（DLC）页面，单击查看报警规则，即可查看已创建的报警规则详情、报警历史等，并支持修改规则。

通过API配置报警通知

您可以通过调用API的方式，配置监控报警服务，功能包括查看报警历史、管理报警模板、配置报警规则和报警联系人等。具体调用方法和详情介绍，请参见云监控API目录：报警服务。

订阅监控指标

云监控提供完善的API服务，您可以通过调用API的方式，订阅DLC的监控指标及数据，搭建自己的监控系统和数据大盘。具体操作步骤，请参见云产品监控API目录。

云监控API	标题	API概述
DescribeMetricLast	查询指定监控项的最新监控数据	调用DescribeMetricLast接口查询指定监控项的最新监控数据。
DescribeMetricList	查询指定云产品的指定监控项的监控数据	调用DescribeMetricList接口查询指定云产品的指定监控项的监控数据。
DescribeMetricData	查询指定云产品的某个监控项的监控数据	调用DescribeMetricData接口查询指定云产品的某个监控项的监控数据。
DescribeMetricMetaList	查询云监控开放的监控项详情	调用DescribeMetricMetaList接口查询云监控开放的监控项详情。
DescribeProjectMeta	查询云监控支持的时序类监控项产品列表	调用DescribeProjectMeta接口查询云监控支持的时序类监控项产品列表。
DescribeMetricTop	查询排序后的最新监控数据	调用DescribeMetricTop接口先查询指定云产品的指定监控项的最新监控数据，再查询该监控项排序后的监控数据。