Dataphin标签基于离线计算引擎,支持通过表映射方式将物理表字段直接定义成为数据集指标。本文将指导您如何通过表映射创建离线数据集。
前提条件
创建离线数据集前需先创建数据集所归属的标签项目。更多信息,请参见创建标签项目。
操作步骤
在Dataphin首页,单击顶部菜单栏的标签。默认进入资产市场页面。
按照以下操作指引,进入新增离线数据集对话框。
单击工作台->选择标签项目->单击离线数据集->单击新增数据集。
在新增离线数据集对话框中,单击表映射。
在新增表映射配置页面,配置数据集的基本信息。
参数
描述
数据集名称
填写数据集的名称信息。支持中英文、数字、下划线(_),需在64字符以内。
数据集code
离线数据集的唯一标识。在存在相同离线数据集名称时,可帮助您定位具体离线数据集。必须以字母开头,允许小写英文字母、数字、下划线(_),64字符以内。
数据集更新方式
支持周期更新与手动更新方式。
周期更新:在一定时间的间隔内自动更新数据集。
手动更新:通过手动操作方式更新数据集。
负责人
请选择该离线数据集的负责人。
描述
填写离线数据集的简单描述,1000个字符以内。
配置离线数据集的加工逻辑。
参数
描述
项目
选择离线数据集所需要引用的项目名称,支持跨通用项目选表。
来源表
选择您需定义数据集的来源表名称。
说明仅支持选择项目生产账号有查表数据的表。若无权限,您可以单击申请权限进行申请。
非分区表仅支持管理中心->标签平台设置的一级分区字段名的分区表。更多信息,请参见标签平台设置。
指标定义
完成项目和来源表选择后,您可以勾选定义数据集指标的对应表字段并配置主键、码表和字段的描述。
配置主键:单击开关,开启后可配置当前字段为主键。
说明主键默认支持勾选字符型或长整型的表字段。
仅支持整型、Decimal、布尔型及字符串类型字段配置码表。
配置码表:
单击进入配置码表对话框。
在配置码表对话框中,配置相关参数。
配置码表:默认为不配置,可以选择码表为指标配置对应码表。
码表来源:目前仅支持手动配置。
码表名称:请输入码表名称。支持中文、英文数字及特殊字符,128个字符以内。
码表描述:请输入码表的简单描述,1000个字符以内。
批量输入框:可以批量输入代码值及代码名称,每组按行分割,代码值和代码名称中间用半角冒号(:)分隔。
代码信息:支持手动输入代码值、代码名称。
说明单击点击识别,系统将自动解析批量输入框的代码信息并填入代码信息列表。
单击一键清除,系统将自动清除信息列表。
代码值:支持所有字符类型,不可为空,且填写的代码值需唯一。
代码名称:支持所有字符类型,不可为空,且填写的代码值需唯一。
说明单击支持删除当前已创建的代码值。
单击确定,完成代码值配置。
配置离线数据集的运维配置。
说明若数据集更新方式为手动更新,无需进行配置。
调度周期
支持按天的某一时刻进行调度。即任务每天自动运行一次,您可以根据需要,指定运行的时间点。
调度依赖
调度依赖即节点间的上下游依赖关系,在Dataphin中,上游任务节点运行完成且运行成功,下游任务节点才会开始运行。
自动解析
系统将根据任务血缘自动解析上游依赖节点并做关联,数据更新将依赖上游数据产出。
说明若自动解析的结果不符合预期,您可以单击关闭生效按钮,关闭后表示不选择依赖该节点。
默认本周期依赖。
添加依赖
若自动解析无法解析出调度依赖关系或自动解析生成的上游依赖配置与实际应用不符时,您可以手动单击+添加依赖添加节点的上游依赖。
单击保存并发布,完成离线数据集的创建。
说明保存成功后,您可以单击预览。系统将根据配置的加工逻辑展示对应数据信息,以帮助您验证加工逻辑是否正确。
后续步骤
完成离线数据集的创建和配置后,您可以为离线数据集创建对应的离线标签。更多信息,请参见离线标签概述。
- 本页导读 (0)