数仓版(3.0)弹性模式集群版(新版)和湖仓版(3.0)集群监控提供了丰富的监控指标,包括查询和写入、资源组信息和集群的运行状况等指标。您可以调用API接口或通过控制台查看集群过去一个月内指定时间段的各项监控指标,掌握集群的性能和运行状况,排查并解决问题。
注意事项
仅支持查看过去一个月内的监控信息,每次查看的指定时间段最长为2天。
数仓版(3.0)查看监控信息
操作步骤
登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,在数仓版(3.0)页签,单击目标集群ID。
在左侧导航栏中,单击监控信息。
在监控信息页,您可以单击集群资源监控和资源组监控来查看对应监控信息。
监控项说明
健康状态监控项说明
重要仅3.1.6及以上版本的集群支持查看健康状态信息。
如何查看集群内核版本,请参见如何查看实例版本信息。如需升级内核版本,请联系技术支持。
当任一健康状态为风险或不可用时,请联系技术支持。
监控项
说明
集群接入节点状态
AnalyticDB for MySQL接入层由多个实例接入节点组成,主要负责协议层接入、SQL解析和优化、实时写入Sharding、数据调度和查询调度。
实例接入节点状态包含:
健康:实例接入节点可用数。
不可用:实例接入节点不可用数。
计算节点组健康状态
计算节点组即AnalyticDB for MySQL的计算引擎,具备分布式MPP和DAG融合执行能力,结合智能优化器,可支持高并发和复杂SQL混合负载。同时借助云原生基础设施,计算节点实现了弹性调度,可根据业务需求做到分钟级甚至秒级扩展,实现了资源的有效利用。
计算节点组健康状态包含:
健康:计算节点可用数。
不可用:计算节点不可用数。
存储节点组健康状态
存储节点组即AnalyticDB for MySQL的存储引擎,基于Raft协议实现的分布式实时强一致高可用存储引擎,通过数据分片和Multi-Raft实现并行存储,利用分层存储实现冷热分离降低成本,通过行列存储和智能索引达到极高性能。
存储节点组健康状态包含:
健康:存储节点可用数。
风险:存在风险的存储节点数。
不可用:存储节点不可用数。
集群资源监控项说明
监控项
单位
说明
CPU使用率
%
监控如下信息:
存储节点CPU最大使用率
存储节点平均CPU使用率
计算节点CPU最大使用率
计算节点CPU使用率
说明预留模式C32规格变配为弹性模式后,CPU平均使用率会增大,详情请参见常见问题。
磁盘IO吞吐
MB
监控如下信息:
存储节点磁盘读吞吐量
存储节点磁盘写吞吐量
Build任务数
数值
监控如下信息:
平均Build任务数:所有存储节点中运行的Build任务数量的平均值。
最大Build任务数:所有存储节点中运行的Build任务数量的最大值。
磁盘IOPS
数值
监控如下信息:
存储节点磁盘平均读次数
存储节点磁盘平均写次数
磁盘IO使用率
%
监控存储节点磁盘IO使用率。
磁盘IO等待时间
毫秒(ms)
监控存储节点磁盘IO等待时间。
集群连接数
数值
成功建立连接的数量。
磁盘使用量
MB
监控集群的最大磁盘使用量。
热数据使用量
MB
监控集群的热数据使用量。
冷数据使用量
MB
监控集群的冷数据使用量。
节点不可用数监控
数值
监控如下信息:
计算节点掉线数
存储节点掉线数
计算内存使用率
%
监控如下信息:
存储节点最大计算内存使用率
存储节点平均计算内存使用率
计算节点平均计算内存使用率
计算节点最大计算内存使用率
查询
查询QPS
数值
监控查询QPS。
查询响应时间
毫秒(ms)
监控如下信息:
平均查询响应时间
最大查询响应时间
查询等待时间
毫秒(ms)
监控如下信息:
查询平均等待时长
查询最大等待时长
查询失败率
%
查询的失败率。
若您选择的查询时间是24小时以内的某个时间段,计算方法为:
查询失败率=(一分钟内的SQL失败数/一分钟内的SQL总数)*100%
。若您选择的查询时间是24小时以外的某个时间段,计算方法为:
查询失败率=(五分钟内的SQL失败数/五分钟内的SQL总数)*100%
。
写入
写入响应时间
毫秒(ms)
监控如下信息:
平均写入响应时间
最大写入响应时间
删除响应时间
毫秒(ms)
监控如下信息:
平均删除响应时间
最大删除响应时间
更新响应时间
毫秒(ms)
监控如下信息:
平均更新响应时间
最大更新响应时间
写入吞吐量
MB
监控集群的平均写入吞吐量。
TPS
数值
监控如下信息:
TPS(即所有写入TPS、删除TPS和更新TPS和LOAD_TPS四者的总和)
写入TPS
删除TPS
更新TPS
LOAD_TPS
资源组监控项说明
重要仅同时满足如下条件的数仓版(3.0)集群才支持查看资源组监控信息:
集群系列需为弹性模式集群版(新版)。
集群规格需为32核或以上。
监控项
单位
说明
CPU使用率
%
监控资源组的CPU平均使用率。
查询响应时间
毫秒(ms)
监控资源组下查询的平均响应时间。
查询QPS
数值
监控资源组的查询QPS。
查询等待时间
毫秒(ms)
监控资源组下查询的平均等待总耗时。
资源组分时弹性实际弹出节点数
数值
监控资源组分时弹性计划中实际生效的节点数(即执行扩容计划时实际增加的节点数)。
资源组分时弹性计划弹出节点数
数值
监控资源组分时弹性计划中需要增加的节点数。
如何新增资源组弹性计划,请参见创建资源弹性计划。
资源组总节点数
数值
监控资源组拥有的总节点数,总节点数=基础节点数+实际生效的分时弹性节点数。
资源组基础节点数
数值
监控资源组中的基础节点数。
湖仓版(3.0)查看监控信息
操作步骤
登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,在湖仓版(3.0)页签,单击目标集群ID。
在左侧导航栏中,单击
。在监控信息页,您可以单击集群监控和资源组监控来查看对应监控信息。
监控项说明
湖仓版(3.0)集群的监控分为集群监控和资源组监控。
集群监控项说明
重要当任一健康状态为风险或不可用时,请联系技术支持。
监控项
单位
说明
集群监控
集群接入节点状态
无
AnalyticDB for MySQL接入层由多个实例接入节点组成,主要负责协议层接入、SQL解析和优化、实时写入Sharding、数据调度和查询调度。
实例接入节点状态包含:
健康:实例接入节点可用数。
不可用:实例接入节点不可用数。
计算节点组健康状态
无
计算节点组即AnalyticDB for MySQL的计算引擎,具备分布式MPP和DAG融合执行能力,结合智能优化器,可支持高并发和复杂SQL混合负载。同时借助云原生基础设施,计算节点实现了弹性调度,可根据业务需求做到分钟级甚至秒级扩展,实现了资源的有效利用。
计算节点组健康状态包含:
健康:计算节点可用数。
不可用:计算节点不可用数。
存储节点组健康状态
无
存储节点组即AnalyticDB for MySQL的存储引擎,基于Raft协议实现的分布式实时强一致高可用存储引擎,通过数据分片和Multi-Raft实现并行存储,利用分层存储实现冷热分离降低成本,通过行列存储和智能索引达到极高性能。
存储节点组健康状态包含:
健康:存储节点可用数。
风险:存在风险的存储节点数。
不可用:存储节点不可用数。
性能 & 负载
CPU使用率
%
监控如下信息:
存储CPU最大使用率
存储CPU平均使用率
接入层CPU最大使用率
接入层CPU平均使用率
计算CPU最大使用率
计算CPU平均使用率
集群连接数
数值
成功建立连接的数量。
Build任务数
数值
监控如下信息:
平均Build任务数:所有存储节点中运行的Build任务数量的平均值。
最大Build任务数:所有存储节点中运行的Build任务数量的最大值。
写入响应时间
毫秒(ms)
监控如下信息:
最大写入响应时间
平均写入响应时间
查询响应时间
毫秒(ms)
监控如下信息:
最大查询响应时间
平均查询响应时间
查询失败率
%
查询的失败率。
若您选择的查询时间是24小时以内的某个时间段,计算方法为:
查询失败率=(一分钟内的SQL失败数/一分钟内的SQL总数)*100%
。若您选择的查询时间是24小时以外的某个时间段,计算方法为:
查询失败率=(五分钟内的SQL失败数/五分钟内的SQL总数)*100%
。
磁盘IO吞吐量
MB
监控如下信息:
计算写吞吐
计算读吞吐
存储写吞吐
存储读吞吐
磁盘IOPS
数值
监控如下信息:
计算写磁盘IOPS
计算读磁盘IOPS
存储写磁盘IOPS
存储读磁盘IOPS
存储节点磁盘IO使用率
%
监控磁盘的平均IO使用率。
存储节点磁盘IO等待时间
毫秒(ms)
监控磁盘的平均IO等待时间。
磁盘使用总量
MB
监控如下信息:
计算磁盘使用总量
存储磁盘使用总量
冷数据使用量
MB
监控集群的冷数据使用量。
热数据使用量
MB
监控集群的热数据使用量。
节点不可用数监控
数值
监控如下信息:
计算节点掉线数
存储节点掉线数
计算内存使用率
%
监控如下信息:
计算节点平均计算内存使用率
计算节点最大计算内存使用率
存储节点平均计算内存使用率
存储节点最大计算内存使用率
资源组监控项说明
监控项
单位
说明
CPU使用率
%
监控user_default资源组的CPU使用率。
资源组监控的更多信息,请参见查看资源组监控。
常见问题
Q:为什么预留模式跨规格变配为弹性模式后,CPU平均使用率会增大?
A:预留模式C32规格变配为弹性模式,单个节点会降低到8核,Build任务默认占用3核,此时会导致CPU平均使用率增大。CPU平均使用率增大但未影响业务时,您无需关注;若已影响业务的正常运行,请进行升配操作或提交工单联系技术支持。关于Build任务的详细信息,请参见BUILD。
Q:为什么普通索引和主键索引监控指标偏大?
A:原因如下:
创建索引、主键索引的列数量偏多。
索引列中某些值长度较长,单个列的长度较长(例如:长字符串等)。
某些索引列的值个数(The Number of Distinct Values)偏多,且值都不相同,导致索引压缩率低。例如:某索引列为A,值为A1、A2、A3、A4,所有值都不相同,数据很难被压缩,导致索引压缩率低。
主键中某些值长度较长或多个列构成了复合主键。
Q:为什么在监控页面发现有较长时间的RT(响应时间)产生,但在诊断与优化页面查询不到对应的耗时SQL?
A:查询的返回结果数据量大,导致结果集缓存耗时长,而诊断与优化页面的总耗时=排队耗时+执行计划耗时+执行耗时,不包括结果集缓存耗时。建议您在SQL审计页面查看对应的耗时SQL。
相关文档及API
相关文档
相关API
数仓版API
API | 说明 |
查看目标数仓版(3.0)集群的查询和写入监控信息。 | |
查看目标数仓版(3.0)集群的资源组监控信息。 | |
查看目标数仓版(3.0)集群的健康状态。 |
湖仓版API
API | 说明 |
查看目标湖仓版(3.0)集群的资源组监控信息。 |
- 本页导读 (1)