DataWorks的Check节点可用于检查目标对象(MaxCompute分区表、FTP文件或OSS文件)是否可用,当Check节点满足检查策略后会返回运行成功状态。如果某任务的运行依赖目标对象,您可使用Check节点检查目标对象,并设置该任务为Check节点的下游任务,当Check节点满足检查策略后,便会运行成功并触发下游任务执行。本文为您介绍Check节点支持检查的对象、具体的检查策略、以及如何配置Check节点。
支持检查的对象及检查策略
Check节点目前仅支持检查MaxCompute分区表、FTP文件及OSS文件,不支持检查MaxCompute非分区表。检查策略如下:
MaxCompute分区表
Check节点提供了如下两种检查策略,辅助您判断MaxCompute分区表数据是否已达到可用状态。
策略一:检查目标分区是否存在
若Check节点检查到MaxCompute分区表的目标分区已存在,则平台即认为MaxCompute分区表数据产出完成,已可用。
策略二:检查目标分区在指定时长是否有更新
若Check节点检查到MaxCompute分区表的目标分区在指定时长内未更新,则表示该分区的数据已产出完成,平台即认为MaxCompute分区表数据已可用。
FTP文件或OSS文件
若Check节点检查到目标FTP文件或OSS文件存在,则平台即认为FTP或OSS文件已可用。
除此之外,您还需指定Check节点的检查时间间隔(即每次检查后需要多久才会触发下一次检查)与停止检查条件(即检查次数上限或检查截止时间),若任务到达检查次数上限或检查截止时间仍未检查通过,Check节点将失败退出。具体策略配置,请参见步骤二:配置检查策略。
Check节点可实现周期性检查目标对象,您需根据预期的开始检查时间,配置Check节点的定时调度时间。当满足调度运行条件后,Check节点将一直处于运行中状态直至满足检查条件返回成功,或由于长时间未检查通过而返回失败。调度配置,详情请参见步骤三:配置任务调度。
使用限制
不支持使用公共调度资源组运行Check节点任务。
2023年11月1日前购买的独享调度资源组需联系技术支持升级,升级后才可使用该独享资源组运行Check节点任务。使用未升级的资源组运行Check节点任务会产生
java.lang.RuntimeException: unknown type : 241
报错。一个Check节点仅支持检查一个对象,若您的任务依赖了多个对象(例如,某任务依赖多个MaxCompute分区表),则需创建多个Check节点分别校验相应对象。
前提条件
Check节点基于数据源进行校验,使用Check节点前,需先创建对应数据源,具体如下:
MaxCompute分区表
已创建MaxCompute数据源并绑定至数据开发(DataStudio)。在DataWorks中,您需要先将MaxCompute项目创建为DataWorks的MaxCompute数据源,才可通过该数据源访问相应MaxCompute项目的数据。详情请参见创建MaxCompute数据源、开发前准备:绑定数据源或集群。
已创建MaxCompute分区表。详情请参见创建并使用MaxCompute表。
FTP文件:已创建FTP数据源。在DataWorks中,您需要先将FTP服务创建为DataWorks的FTP数据源,才可通过该数据源访问相应FTP服务的数据。详情请参见FTP数据源。
OSS文件:已创建OSS数据源且数据源访问模式为Access Key。在DataWorks中,您需要先将OSS的Bucket创建为DataWorks的OSS数据源,才可通过该数据源访问相应Bucket中的数据。详情请参见创建存储空间、创建OSS数据源。
目前仅支持在Check节点中通过Access Key模式访问OSS数据源,RAM角色授权模式配置的OSS数据源无法用于Check节点。
步骤一:创建Check节点
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
单击图标,选择
。根据界面指引,输入节点的路径、名称等信息。
步骤二:配置检查策略
您可根据业务需要,选择使用Check节点检查MaxCompute分区表、FTP文件或OSS文件,并配置相应策略。
配置MaxCompute分区表的检查策略
参数说明如下。
参数 | 描述 |
数据源类型 | 选择MaxCompute。 |
数据源名称 | 待检查的MaxCompute分区表所在的数据源。 如果没有可用的数据源,您可单击新建数据源创建。创建MaxCompute数据源,详情请参见创建MaxCompute数据源。 |
表名 | 待检查的MaxCompute分区表。 说明 仅支持选择所选数据源下的MaxCompute分区表。 |
分区 | 待检查的MaxCompute表的分区。 配置表名参数后,您可先预览表信息,查看分区名称;也可使用调度参数获取分区名称,调度参数的使用,详情请参见调度参数支持的格式。 |
Check通过条件 | 定义分区表的检查方式及通过条件。您可选择使用如下两种方式检查:
|
Chcek停止策略 | 用于配置Check节点任务的停止检查策略。您可设置停止检查时间或停止检查次数,并支持配置检查频率:
|
配置FTP文件的检查策略
参数说明如下。
参数 | 描述 |
数据源类型 | 选择FTP。 |
数据源名称 | 待检查的FTP文件所在的数据源。 如果没有可用的数据源,您可单击新建数据源创建。创建FTP数据源,详情请参见FTP数据源。 |
文件路径 | 待检查的FTP文件路径,例如,/var/ftp/test/。 若检查到输入的路径存在,则表示该路径的同名文件存在。 您可直接输入路径,也可使用调度参数获取路径,调度参数的使用,详情请参见调度参数支持的格式。 |
Check通过条件 | 定义FTP文件的检查通过条件。
|
Chcek停止策略 | 用于配置Check节点任务的停止检查策略。您可设置停止检查时间或停止检查次数,并支持配置检查频率:
|
配置OSS文件的检查策略
参数说明如下。
参数 | 描述 |
数据源类型 | 选择OSS。 |
数据源名称 | 待检查的OSS文件所在的数据源。 如果没有可用的数据源,您可单击新建数据源创建。创建OSS数据源,详情请参见OSS数据源。 |
文件路径 | 待检查的OSS文件所在路径。 格式遵循OSS文件路径的格式定义:
说明 选择数据源后,平台将默认使用数据源中配置的Bucket。因此,路径中无需再输入Bucket信息。输入路径后,您可单击查看完整路径,查看开发环境OSS数据源的Endpoint和Bucket信息。 |
Check通过条件 | 定义OSS文件的检查通过条件。
|
Chcek停止策略 | 用于配置Check节点任务的停止检查策略。您可设置停止检查时间或停止检查次数,并支持配置检查频率:
|
步骤三:配置任务调度
如您需要周期性使用Check节点进行分区数据检查,可单击节点编辑页面右侧的调度配置,根据业务需求配置该节点任务的调度信息。详情请参见任务调度属性配置概述。
Check节点与普通调度节点一样,需设置调度依赖、调度时间等调度信息。DataWorks上每个节点均需拥有上游依赖,若Check节点无实际上游依赖,您可根据空间业务复杂度选择依赖虚拟节点或直接依赖工作空间根节点,详情请参见虚拟节点。
您需设置节点的重跑属性和依赖的上游节点,才可提交节点。
步骤四:提交发布任务
节点任务配置完成后,需执行提交发布操作,提交发布后节点即会根据调度配置内容进行周期性运行。
单击工具栏中的图标,保存节点。
单击工具栏中的图标,提交节点任务。
提交时需在提交对话框中输入变更描述,并根据需要选择是否在节点提交后执行代码评审及冒烟测试。
如您使用的是标准模式的工作空间,任务提交成功后,还需单击节点编辑页面右上方的发布,将该任务发布至生产环境执行,操作请参见发布任务。
后续操作
Check节点提交发布至生产运维中心后,会基于节点的配置周期性运行检查,您可通过DataWorks的运维中心查看检查结果并进行相关运维操作,详情请参见周期任务基本运维操作。
- 本页导读 (1)