您可以为分布式训练(DLC)任务创建Tensorboard实例,通过Tensorboard的可视化界面更直观地查看模型训练结果分析报告。本文为您介绍如何创建和管理Tensorboard实例。
前提条件
已创建DLC任务,且绑定了数据集。具体操作,请参见创建训练任务。
使用限制
仅添加数据集配置的DLC任务支持使用Tensorboard查看分析报告。
创建Tensorboard实例
进入分布式训练任务页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在工作空间页面的左侧导航栏选择
。
在目标任务操作列下,单击Tensorboard,在弹出的Tensorboard面板中,单击新建Tensorboard。
在新建Tensorboard页面中,配置以下参数,然后单击确定。
基本信息
参数
描述
Tensorboard名称
自定义Tensorboard实例名称。
Tensorboard配置
支持以下两种配置类型:
按数据集
数据集:选择创建DLC任务时绑定的数据集。
Summary目录:请填写Summary目录在数据集中的路径。
按任务
DLC任务:选择已创建的DLC任务。
Summary目录:请填写Summary目录在任务中的绝对路径。例如,Summary文件在数据集的
/tensorboards/summary
内,而该数据集在DLC任务中的挂载路径为/mnt/data
,则Summary文件在DLC任务中的绝对路径为/mnt/data/tensorboards/summary
。
您可以单击添加按钮,为每个Tensorboard挂载多个Summary目录,以便跨多个任务比较各项指标。
资源配置
支持选择以下两种资源类型:
资源类型
描述
免费资源
提供一定的免费实例额度。
付费资源
超出免费额度时,您可以选择使用付费资源来启动Tensorboard实例,或关闭运行中的免费实例,以继续使用免费额度。关于资源规格的计费详情,请参见附录:公共资源组定价详情。
专有网络配置
当使用付费资源创建Tensorboard实例时,支持配置该参数。
不配置专有网络,将使用公网连接。由于公网连接的带宽有限,在Tensorboard实例启动过程或查看报告时,可能会出现卡顿或无法正常进行的情况。
配置专有网络,以确保充足的网络带宽和更稳定的性能。
选择当前地域可用的专有网络,并选择对应的交换机与安全组。配置完成后,Tensorboard实例运行的集群将能够直接访问此专有网络内的服务,并使用此处选择的安全组进行安全访问限制。
重要如果Tensorboard实例使用了需要配置专有网络的数据集(例如CPFS类型的数据集,或挂载点在专有网络内的NAS类型数据集等),则必须设置专有网络。
前往Tensorboard页面查看分析报告。
在工作空间页面的左侧导航栏选择
。切换到Tensorboard页签,当目标Tensorboard实例的状态为运行中时,单击操作列下的查看Tensorboard。
页面自动跳转到TensorBoard页面。
管理Tensorboard实例
您可以按照以下操作步骤,对已创建的Tensorboard实例进行管理操作。
进入任务管理页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在工作空间页面的左侧导航栏选择 ,进入任务管理页面。
管理Tensorboard实例。
在Tensorboard页签,单击目标Tensorboard实例名称,进入任务详情页面。在该页面查看Tensorboard的基本信息和配置信息。
查看关联任务
表示该Tensorboard实例关联的DLC任务数。将鼠标悬浮在关联任务列下的图标上,您可以查看已关联的DLC任务ID,并支持单击跳转到相关任务详情页面。
查看关联数据集
表示该Tensorboard实例关联的数据集个数。将鼠标悬浮在关联数据集列下的图标上,您可以查看已关联的数据集ID,并支持单击跳转到相关数据集详情页面。
查看执行时长
表示该Tensorboard实例启动成功后的运行时长。停止实例后,该时间将重置。
停止Tensorboard实例:
单击目标实例操作列下的停止,直接停止实例。
单击目标实例操作列下的自动停止设置,设置自动停止时间。
相关文档
您也可以在创建及管理Tensorboard任务。
页面,为分布式训练(DLC)任务创建Tensorboard实例。具体操作,请参见- 本页导读 (1)