本文为您介绍如何新建采集器,采集OSS元数据至DataWorks。采集完成后,您可以在数据地图查看数据。

背景信息

使用元数据采集器全量采集元数据后,系统会开启自动增量采集,自动同步EMR表中新增的元数据至DataWorks。

使用限制

目前该元数据采集处于邀测阶段。

操作步骤

  1. 登录DataWorks控制台后,进入数据地图页面,操作详情请参见进入首页
  2. 在顶部菜单栏,单击数据发现
  3. 在左侧导航栏,单击元数据采集 > OSS
  4. OSS元数据采集页面,单击新建采集器
  5. 新建采集器配置向导页面,完成以下操作。
    1. 基本信息页签下,配置各项参数。
      新建采集器
      参数描述
      采集器名称采集器的名称,必填且唯一。
      采集器描述对采集器进行简单描述。
      数据源类型采集对象的类型,默认为OSS
    2. 单击下一步
    3. 选择采集对象页签下,配置各项参数。
      选择采集对象
      参数描述
      工作空间工作空间列表中,选择需要采集的OSS数据源所在的工作空间。
      数据源数据源列表中,选择需要采集的OSS数据源。如果没有您需要的数据源,请进入工作空间管理 > 数据源管理页面新建,详情请参见配置OSS数据源
      对象路径待采集的OSS对象路径。
      遍历路径是否遍历采集指定对象路径下的子路径。
      表前缀采集器自动生成表时加的表名前缀,默认使用OSS对象名称作为表名。
    4. 单击下一步
    5. 配置执行计划页签下,配置各项参数。
      配置执行计划
      参数描述
      执行计划包括按需执行每月每周每天每小时自定义
      更新选项设置更新目标表的条件。
      删除选项设置删除目标表的条件。
    6. 单击下一步
    7. 信息确认页签下,确认配置信息无误后,单击确认
  6. OSS元数据采集页面,单击相应采集器后的运行
    运行完成后,单击上次运行更新表上次运行添加表列的数据,即可查看采集的表。
    您还可以在该页面进行以下操作:
    • 单击相应采集器后的详情,在采集器详情对话框中,查看该采集器的详情。
    • 单击相应采集器后的编辑,在编辑采集器对话框中,修改该采集器的信息。
    • 单击相应采集器后的删除,在请确认对话框中,单击确认,删除该采集器。
    • 单击处于运行中状态的采集器后的停止,停止运行该采集器。
  7. 查看OSS元数据。
    1. 在顶部菜单栏,单击全部数据
    2. 单击OSS
    3. OSS页签下,单击相应的表名,查看该表的详情。