DataWorks开放数据为您提供各维度的表或视图,便于您采集元数据。本文为您介绍当前DataWorks开放数据提供的表和视图列表,及其结构明细。
META元数据
RPT指标
RAW明细
调度元数据
租户元数据
Table核心指标rpt_v_meta_ind_table_core
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目(工作空间)ID |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_name | string | 表名称 |
table_uuid | string | 表唯一标识 |
owner_yun_acct | string | 表Owner云账号 |
dim_life_cycle | bigint | 生命周期,单位为天。
|
is_partition_table | boolean | 是否为分区表。
|
entity_type | bigint | 实体类型。
|
categories | string | 类目信息 |
last_access_time | bigint | 表最后访问时间(10位UNIX_TIMESTAMP) |
size | bigint | 表大小,此处指数据占用的逻辑存储值,单位为Byte,视图对应存储量为NULL。 |
column_count | bigint | 字段数量(含分区列) |
partition_count | bigint | 分区数量,对于非分区表该值为NULL。 |
detail_view_count | bigint | 通过页面查看表详情的次数 |
favorite_count | bigint | 添加表到收藏的次数 |
Table额外指标rpt_v_meta_ind_table_extra
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
table_uuid | string | 表唯一标识 |
read_count | bigint | 读取次数(通过SQL读取次数,包含非调度任务) |
read_count_30d | bigint | 30天读取次数(通过SQL读取次数,包含非调度任务) |
write_count | bigint | 写入次数(通过SQL写入次数,包含非调度任务) |
join_count | bigint | 关联次数,即作为join运算的参与方的次数。 |
direct_upstream_count | bigint | 血缘关系中,其直接上游表的数量。 |
direct_downstream_count | bigint | 血缘关系中,其直接下游表的数量。 |
output_task_count | bigint | 产出当前表的任务数量 |
数据库(ODPS项目)元数据明细raw_v_meta_database
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID |
env_type | bigint | 环境类型。
|
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
database_comment | string | 数据库或ODPS项目描述 |
owner_name | string | 所有者名称 |
created_time_ts | bigint | 创建时间戳(13位数字时间戳) |
last_modified_time_ts | bigint | 最后修改时间(13位数字时间戳) |
location | string | 数据库存储路径 |
extras | string | 数据库额外属性信息,为JSON字符格式。 MaxCompute项目如果设置了预览和表可见范围属性,可以通过KEY:allowDataPreview和projectVisibility获取。
|
biz_date | string | 业务数据日期 |
表(table)元数据明细raw_v_meta_table
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | string | DataWorks项目ID |
table_uuid | string | 表唯一标识 |
table_name | string | 表名称 |
table_type | string | 表类型 |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
partition_keys | string | 表的分区键。多级分区使用英文逗号(,)分隔,非分区表该值为空字符串。 |
table_comment | string | 表描述信息 |
table_biz_comment | string | 表业务描述信息 |
visibility_scope | bigint | 表可见范围。
|
owner_name | string | 所有者名称 |
created_time_ts | bigint | 创建时间(13位数字时间戳) |
last_modified_time_ts | bigint | 数据最后修改时间(13位数字时间戳) |
last_meta_modified_time_ts | bigint | 表元数据最后变更时间(13位数字时间戳) |
location | string | 表存储路径 |
life_cycle | bigint | 表生命周期,单位为天。 |
data_size | bigint | 表的逻辑存储量,单位为Byte。当表为分区表时,该值为NULL,需要根据其分区列表统计存储量。 |
biz_date | string | 业务数据日期 |
视图(view)元数据明细raw_v_meta_view
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | string | DataWorks项目ID |
table_uuid | string | 表唯一标识 |
table_name | string | 表名称 |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_comment | string | 表描述信息 |
table_biz_comment | string | 表业务描述信息 |
visibility_scope | bigint | 表可见范围。
|
owner_name | string | 所有者名称 |
created_time_ts | bigint | 创建时间(13位数字时间戳) |
last_ddl_time_ts | bigint | DDL最后修改时间(13位数字时间戳) |
view_text | string | 创建视图的SQL语句 |
biz_date | string | 业务数据日期 |
列(column)元数据明细raw_v_meta_column
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_name | string | 表名称 |
column_name | string | 字段名称 |
column_comment | string | 字段描述信息 |
column_biz_comment | string | 字段业务描述信息 |
column_type | string | 字段类型 |
column_sequence | bigint | 字段顺序(从1开始) |
is_partition_key | boolean | 是否为分区键 |
is_primary_key | boolean | 是否为主键 |
biz_date | string | 业务数据日期 |
分区(partition)元数据明细 raw_v_meta_partition
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_name | string | 表名称 |
partition_name | string | 分区名称 |
size | bigint | 分区大小(逻辑大小),单位为Byte |
record_number | bigint | 分区记录数量 |
created_time_ts | bigint | 创建时间(13位数字时间戳) |
last_modified_time_ts | bigint | 最后修改时间(13位数字时间戳) |
biz_date | string | 业务数据日期 |
表血缘(table-lineage)元数据明细raw_v_meta_table_lineage
因为SQL语言与用户代码等本身的复杂性,血缘功能做不到100%的完整性与准确性。请不要用此功能支持需要保证完整性与正确性的业务。
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID |
src_type | string | 源数据源类型 |
src_data_source_id | string | 源数据源标识 |
src_database | string | 源数据库 |
src_table | string | 源表 |
dest_type | string | 目标数据源类型 |
dest_data_source_id | string | 目标数据源标识 |
dest_database | string | 目标数据库 |
dest_table | string | 目标表 |
schedule_task_id | string | 调度任务ID |
schedule_instance_id | string | 调度任务实例ID |
schedule_task_owner | string | 调度任务Owner |
job_start_time_ts | bigint | 任务开始时间(13位数字时间戳) |
job_end_time_ts | bigint | 任务结束时间(13位数字时间戳) |
execute_time | bigint | 任务耗时,单位为秒 |
input_record_number | bigint | 源表输入记录数 |
biz_date | string | 业务数据日期 |
表产出任务(table-output)元数据明细raw_v_meta_table_output
数据地图页面透出的产出任务只有ODPS表,此处产出表类型是大血缘支持的表类型。
产出信息基于血缘计算。
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID,此处指运行调度任务的项目。 |
type | string | 数据源类型 |
data_source_id | string | 数据源标识 |
database | string | 数据库 |
table | string | 表名称 |
schedule_task_id | string | 调度任务ID |
schedule_instance_id | string | 调度任务实例ID |
schedule_task_owner | string | 调度任务Owner |
job_start_time_ts | bigint | 任务开始时间(13位数字时间戳) |
job_end_time_ts | bigint | 任务结束时间(13位数字时间戳) |
execute_time | bigint | 任务耗时,单位为秒。 |
biz_date | string | 业务数据日期 |
表使用(table-usage)信息元数据明细raw_v_meta_table_usage
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID,此处指运行调度任务的项目。 |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_name | string | 表名称 |
schedule_task_id | string | 调度任务ID |
schedule_task_owner | string | 调度任务的负责人,如果当前任务未经DataWorks调度,该值为NULL |
job_id | string | 任务标识(此处不一定是DataWorks调度任务实例),可以基于此来统计表读取,写入次数等 |
op_type | string | 操作类型,如READ、WRITE、UNKNOWN等 |
extras | string | 额外信息,格式为JSON字符串格式。 操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。若DataWorks调度任务ID不为空,可以通过schedule_task_name属性获取调度任务名称。例如 |
biz_date | string | 业务数据日期 |
字段使用(column-usage)信息元数据明细raw_v_meta_column_usage
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID,此处指运行调度任务的项目。 |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_name | string | 表名称 |
column_name | string | 字段名称 |
schedule_task_id | string | 调度任务ID |
schedule_task_owner | string | 调度任务的负责人,如果当前任务未经DataWorks调度,该值为NULL |
inst_id | string | 任务标识(此处不一定是DataWorks调度任务实例) |
op_type | string | 操作类型,如select、join、groupby、where等 |
extras | string | 额外信息,JSON字符串。 操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。若DataWorks调度任务ID不为空,可以通过schedule_task_name属性获取调度任务名称。例如 |
biz_date | string | 业务数据日期 |
表WIKI(table-wiki)信息元数据明细raw_v_meta_biz_table_wiki
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID,此处指运行调度任务的项目。 |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_name | string | 表名称 |
version | string | wiki版本号 |
operator | string | 最后操作人,可能是某一任的表owner。 |
content | string | 以Markdown格式编写的wiki |
update_time_ts | bigint | 修改时间(13位数字时间戳) |
biz_date | string | 业务数据日期 |
表频繁关联(table-join)信息元数据明细raw_v_meta_table_join_map
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_name | string | 表名称 |
column_name | string | 字段名称 |
join_database_name | string | 关联数据库或ODPS项目名称 |
join_table_name | string | 关联表名称 |
join_column_name | string | 关联字段名称 |
join_type | string | JOIN类型,比如:left,right,inner |
schedule_task_id | string | 调度任务ID |
schedule_task_owner | string | 调度任务的负责人 |
job_id | string | 引擎层的任务标识 |
extras | string | 额外信息,格式为JSON字符串格式。操作表的任务为ODPS任务时,可以通过KEY为task_name获取ODPS任务名称。 |
biz_date | string | 业务数据日期 |
元数据表详情查看记录明细raw_v_meta_table_detail_log
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
catalog_name | string | 所属catalog。MaxCompute项目对应值为odps。 |
database_name | string | 数据库或ODPS项目名称 |
table_name | string | 表名称 |
operator | string | 表详情查看者 |
view_time_ts | bigint | 查看表详情时间(13位数字时间戳) |
biz_date | string | 业务数据日期 |
元数据类目明细raw_v_meta_category
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
category_id | bigint | 类目ID |
category_name | string | 类目名称 |
category_pid | bigint | 父类目ID(为0或NULL代表是顶级类目) |
depth | bigint | 类目层级(深度),一级类目为1 |
sort_field | double | 排序字段 |
creator_account | string | 类目创建人账号 |
created_time_ts | bigint | 创建时间戳(13位数字时间戳) |
last_modified_time_ts | bigint | 最后修改时间(13位数字时间戳) |
biz_date | string | 业务数据日期 |
调度节点明细raw_v_schedule_node
名称 | 类型 | 描述 |
tenant_id | bigint | 租户ID |
project_id | bigint | 项目空间ID |
node_id | bigint | 节点ID |
node_name | string | 节点名称 |
node_type | bigint | 节点调度类型。
|
prg_type | bigint | 节点类型。
|
flow_id | bigint | 工作流ID |
project_env | string | 环境标识。
|
create_time | bigint | 创建时间戳(13位数字时间戳) |
create_user | string | 创建人 |
modify_time | bigint | 最后修改时间(13位数字时间戳) |
modify_user | string | 修改人 |
prg_name | string | 节点类型名称 |
para_value | string | 执行参数 |
file_id | bigint | 对应的文件ID |
file_version | bigint | 对应文件版本 |
owner | string | 节点Owner |
resgroup_id | bigint | 资源组ID |
baseline_id | bigint | 基线ID |
cycle_type | bigint | 调度周期。
|
repeatable | bigint | 重跑标识。
|
connection | string | 数据源连接串 |
dqc_type | bigint | DQC类型。
|
dqc_description | string | DQC规则串 |
task_rerun_time | bigint | 任务可重跑次数 |
task_rerun_interval | bigint | 重跑间隔,单位为毫秒 |
cron_express | string | 节点的调度频率CRON表达式 |
priority | bigint | 任务优先级,取值为:1、3、5、7、8。数值越大优先级越高。 |
start_effect_date | bigint | 节点的生效日期(13位数字时间戳) |
end_effect_date | bigint | 节点的失效日期(13位数字时间戳) |
biz_date | string | 业务数据日期 |
调度任务明细raw_v_schedule_task
名称 | 类型 | 描述 |
tenant_id | bigint | 租户ID |
project_id | bigint | 项目空间ID |
node_id | bigint | 节点ID |
node_name | string | 节点名称 |
task_id | bigint | 任务名称 |
dag_id | bigint | 工作流的DAGID |
task_type | bigint | 任务调度类型。
|
dag_type | bigint | DAG类型。
|
prg_type | bigint | 节点类型。
|
flow_id | bigint | 工作流ID |
create_time | bigint | 创建时间戳(13位数字时间戳) |
modify_time | bigint | 最后修改时间(13位数字时间戳) |
cycle_time | bigint | 调度时间(13位数字时间戳) |
in_group_id | bigint | 任务序号 |
prg_name | string | 节点类型名称 |
para_value | string | 执行参数 |
file_id | bigint | 对应的文件ID |
file_version | bigint | 对应文件版本 |
owner | string | 节点Owner |
resgroup_id | bigint | 资源组ID |
baseline_id | bigint | 基线ID |
cycle_type | bigint | 调度周期
|
repeatable | bigint | 重跑标识。
|
connection | string | 数据源连接串 |
dqc_type | bigint | DQC类型。
|
dqc_description | string | DQC规则串 |
task_rerun_time | bigint | 任务可重跑次数 |
task_rerun_interval | bigint | 重跑间隔,单位为毫秒 |
begin_waittime_time | bigint | 开始等时间的时间戳(13位数字时间戳) |
finish_time | bigint | 运行完成时间戳(13位数字时间戳) |
begin_waitres_time | bigint | 开始等资源的时间戳(13位数字时间戳) |
begin_run_time | bigint | 开始运行时间戳(13位数字时间戳) |
rerun_times | bigint | 任务重跑次数 |
priority | bigint | 任务优先级,取值为:1、3、5、7、8。数值越大优先级越高。 |
task_key | string | 任务唯一标识 |
error_msg | string | 运行错误原因 |
status | bigint | 任务状态。
|
biz_date | string | 业务数据日期 |
调度节点关系raw_v_schedule_node_relation
名称 | 类型 | 描述 |
tenant_id | bigint | 租户ID |
child_node_id | bigint | 下游节点ID |
parent_node_id | bigint | 上游节点ID |
step_type | bigint | 依赖关系类型。
|
child_flow_id | bigint | 工作流ID |
project_env | string | 环境标识。
|
create_time | bigint | 创建时间戳(13位数字时间戳) |
create_user | string | 创建人 |
modify_time | bigint | 最后修改时间(13位数字时间戳) |
modify_user | string | 修改人 |
biz_date | string | 业务数据日期 |
调度数据集成资源组明细raw_v_schedule_di_resgroup
名称 | 类型 | 描述 |
tenant_id | bigint | 租户ID |
project_id | bigint | 项目空间ID |
node_id | bigint | 节点ID |
project_env | string | 项目环境 |
res_group_identifier | string | 数据集成资源组标识 |
src_type | string | 来源数据源类型 |
dst_type | string | 去向数据源类型 |
src_datasource | string | 来源数据源 |
dst_datasource | string | 去向数据源 |
config_concurrent | bigint | 并发数 |
biz_date | string | 业务数据日期 |
租户资源组(包含调度,数据集成及odps资源组)raw_v_tenant_res_group
名称 | 类型 | 描述 |
tenant_id | bigint | 租户ID |
res_group_id | bigint | 资源组ID |
res_group_identifier | string | 资源组标识 |
res_group_type | bigint | 资源组类型。
|
res_group_mode | bigint | 资源组类型。
|
status | bigint | 资源组状态。
|
biz_ext_key | string | 资源组扩展字段。取值为single时表示为独享资源组。 |
biz_date | string | 业务数据日期 |
租户用户信息raw_v_tenant_user
名称 | 类型 | 描述 |
tenant_id | bigint | 租户ID |
yun_account | string | 云账号 |
account_name | string | 账号名 |
nick | string | 账号显示名称 |
full_yun_account | string | 含AccountProvider的云账号 |
biz_date | string | 业务数据日期 |
租户工作空间信息raw_v_tenant_workspace
名称 | 类型 | 描述 |
tenant_id | bigint | 租户ID |
project_id | bigint | 工作空间ID |
project_name | string | 工作空间名称 |
project_identifier | string | 工作空间标识符 |
project_desc | string | 工作空间描述信息 |
project_owner | string | 工作空间Owner |
status | bigint | 工作空间状态。
|
biz_date | string | 业务数据日期 |
租户工作空间用户信息raw_v_tenant_workspace_user
名称 | 类型 | 描述 |
tenant_id | bigint | DataWorks租户ID |
project_id | bigint | DataWorks项目ID |
base_id | string | 用户baseId |
status | bigint | 用户状态。
|
gmt_create_ts | bigint | 创建时间(13位数字时间戳) |
gmt_modified_ts | bigint | 修改时间(13位数字时间戳) |
biz_date | string | 业务数据日期 |
- 本页导读 (1)