Kubernetes监控支持查看集群下的Service、Workload、Node和Pod的网络拓扑,以及各资源与云服务之间的网络拓扑。本文介绍了如何查看集群下的网络拓扑。

功能入口

  1. 登录ARMS控制台,在左侧导航栏单击Kubernetes监控
  2. Kubernetes监控页面顶部选择目标地域,然后单击目标集群名称。
  3. 在左侧导航栏单击集群拓扑
    集群拓扑页面默认显示全部命名空间下的Workload网络拓扑,即Deployment、StatefulSet和DaemonSet的网络拓扑,以及各资源与云服务之间的网络拓扑。容器监控-Deployment业务流量拓扑
  4. 可选:在页面左上角下拉框选择Service视图Node视图Pod视图,可以查看Service、Node或Pod之间的网络拓扑,以及各资源与云服务之间的网络拓扑。
    容器监控-业务流量拓扑

筛选过滤拓扑节点

您可以执行以下操作筛选拓扑节点:

  • 在页面顶部节点过滤下拉框中选择命名空间或云服务,或通过关键字搜索指定节点,查看目标命名空间或云服务下的资源列表。
  • 单击节点过滤下拉框右侧的保存图标图标可以保存当前过滤条件。
    说明 下拉框下面显示的是已保存的过滤条件,单击目标的过滤条件可以快速查看对应过滤条件下的集群拓扑。
    • 单击过滤条件名称右侧的编辑图标图标可以修改过滤条件的名称,并设置是否将当前过滤条件对应的集群拓扑设置为默认视图。
    • 单击过滤条件名称右侧的删除图标图标可以删除当前过滤条件。
  • 单击节点过滤下拉框右侧的删除图标 图标,可以删除已选择的所有过滤条件。
  • 单击节点过滤下拉框右侧的查询图标图标,可以查询并快速定位目标节点。
  • 单击节点过滤下拉框右侧的刷新图标,可以刷新当前拓扑图。
  • 在页面右上角时间选择框,可以选择需要查看的时间段。例如:最近30分钟、最近1小时、最近12小时等。

查看拓扑

在集群拓扑的展示页面,您可以执行以下操作:
  • 命名空间节点右下角出现数字图标表示当前命名空间下存在告警事件,单击数字图标可以查看当前命名空间下的所有告警事件列表。更多信息,请参见告警事件。创建告警规则的操作,请参见创建Kubernetes监控告警规则
    说明
    • 云服务产品需接入阿里云Prometheus监控,并创建对应的Prometheus告警才可以查看告警事件。具体操作,请参见云服务报警配置
    • 命名空间中间数字(资源数量)外围的圆圈显示了当前命名空间的告警分布情况,其中,红色表示告警事件状态为Critical,黄色表示告警事件状态为Warning,灰色表示告警状态为Default,蓝色表示无告警。
  • 资源节点右上角出现数字图标表示当前资源下存在告警事件,单击数字图标可以查看当前资源下的所有告警事件列表。更多信息,请参见告警事件
  • 在拓扑图中,单击命名空间或云服务节点右上角的扩展图标图标,可以展开当前命名空间或云服务;单击右上角的收缩图标图标,可以收起当前命名空间或云服务。
  • 将鼠标悬浮于拓扑图中的资源上,可以查看目标资源的请求数、错误数和平均响应时间。单击目标资源节点,在右侧弹出目标资源详情面板。更多信息,请参见节点详情
    说明 仅接入阿里云Prometheus监控的云服务支持查看节点详情。
  • 将鼠标悬浮于节点之间的连线上,可以查看资源之间的请求数、错误数和平均响应时间。单击节点之间的连线,在右侧弹出目标连线详情面板。更多信息,请参见节点连线详情
  • 将鼠标悬浮于资源节点上,单击上下游可以提取目标资源对应的上下游拓扑。
在集群网络拓扑的展示页面的底部,您可以执行以下操作:
  • 页面底部出现提示图标图标,表示当前Kubernetes集群关联的部分云服务还未接入阿里云Prometheus监控。单击图标可以进入接入云服务页面,具体操作,请参见Prometheus实例 for 云服务。云服务接入阿里云Prometheus监控后,在拓扑图中单击云服务节点,可以查看云服务的详细信息。
  • 单击页面底部告警图标图标,可以查看当前Kubernetes集群下的所有告警事件。
  • 单击页面底部展开拓扑图图标,可以展开所有命名空间。
  • 单击页面底部收起拓扑图图标,可以收起所有命名空间。
  • 单击页面底部适应页面大小图标,可以将拓扑图调整为适应页面大小。
  • 单击页面底部放大图标图标或滑动鼠标滚轮,可以放大拓扑图。
  • 单击页面底部缩小图标图标或滑动鼠标滚轮,可以缩小拓扑图。

节点详情

在集群拓扑中单击拓扑节点,可以在弹出的节点详情面板中查看节点的详细信息。

节点详情面板
  • 性能页签,单击协议右侧下拉框可以查看各协议下节点的请求数、错误数、平均响应时间、慢调用数和实例数,以及对应的时序曲线。

    在请求数、错误数、平均响应时间、慢调用数和实例数区域单击明细列表,可查看指标的详细信息。更多信息,请参见多协议指标详情

  • 资源页签,可以查看当前资源的期望实例数和实际实例数。
  • 网络页签,可以查看TCP新建连接数和平均TCP连接成功的时延。
  • 关联上下游页签,可以查看当前资源的上下游资源列表。

节点连线详情

单击拓扑节点之间的连线,可以在节点连线详情面板查看节点连线的详细信息。

拓扑节点连线详情
  • 性能页签,单击协议右侧下拉框可以查看各协议下节点连线的请求数、错误数、平均响应时间和慢调用数,以及对应的时序曲线。

    在请求数、错误数、平均响应时间和慢调用区域单击明细列表,可以查看指标的详细信息。更多信息,请参见多协议指标详情

  • 网络页签,可以查看当前节点连线的网络数据。

告警事件

单击告警数字图标,可以查看目标命名空间的告警列表和当前Kubernetes集群下的所有告警规则。

告警事件列表

告警对象页签显示了产生告警的资源列表,列表信息包括资源名称、资源所在命名空间以及告警等级。

告警事件页签显示了上报告警事件内容。在告警事件页签,您可以执行以下操作:
  • 单击目标事件区域的编辑规则可以修改当前事件对应的告警规则。更多信息,请参见创建Kubernetes监控告警规则
  • 单击目标事件区域的查看详情可以查看当前事件的详细信息。更多信息,请参见事件详情
告警规则页签显示了当前Kubernetes集群下的所有告警规则。在告警规则页签,您可以执行以下操作:
  • 单击创建告警规则,可以进入创建告警规则页面。更多信息,请参见创建Kubernetes监控告警规则
  • 单击目标告警规则前的开关,可以快速开启或关闭对应的告警规则。