本文为您介绍如何配置同步任务。

配置流程

同步任务的配置流程如下图。
配置流程
来源表和目标表均支持多种数据源。按照数据源类型,将支持的数据源分类如下:
  • 关系型数据库:MySQL、Vertica、Oracle、SQL Server、PostgreSQL、RDS、DRDS。
  • 阿里云大数据数仓存储:MaxCompute。
  • 开源大数据数仓存储:Hive。
  • 无结构化数据存储:FTP、HDFS、ElasticSearch。
  • NOSQL数据存储:HBase 、MongoDB 。
    说明 HBase作为数据源或者目标,支持HBase V1.1.x、HBase V0.94.x两类版本。

同时,支持以MySQL、PostgreSQL、Oracle、SQL Server、Vertica为基础存储的同库分表作为来源数据的数据同步形式。

操作步骤

  1. 登录Dataphin。在Dataphin首页,单击顶部菜单栏的研发,进入研发页面。
  2. 选择开发 > 数据处理 > 同步任务
    进入同步任务页面
  3. 单击选择已创建的同步任务,选择同步来源数据源
    选择来源数据源
  4. 选择同步来源。如果数据源为MySQL、PostgreSQL、SQL Server、Oracle,则需要根据需求选择单表多表模式。
    • 单表模式
      单表模式下,可以搜索表名,支持前缀匹配,在匹配到的下拉列表中选择需要的来源表。
      选择同步来源表
    • 多表模式
      1. 多表模式下,支持按照输入的表达式规则,匹配多张相同结构的数据表。例如,输入a2019061[0-5]
        填写表达式
      2. 输入表达式后,单击右侧的确认匹配详情按钮,可以识别到a20190610a20190611a20190613a20190614四张数据表,且这四张表会与源库的元数据进行匹配。
        确认匹配详情
        匹配详情
      3. 当数据表不在源库中时,会高亮显示无法匹配到的表名称。此时确定按钮是置灰的、无法操作,则不会加载字段元数据信息。
      4. 当数据表在源库中都存在时,单击确定后,会以首个被匹配到的表为基础,加载字段元数据信息。
        匹配的表都存在
        加载字段元数据
  5. 选择完来源表之后,表的字段会展示出来。可以删除展示出来的字段,删除字段后,如果需要重新添加,则单击新建字段
    调整源表字段
  6. 填写表的分区字段
    填写源表的分区字段
    说明
    • 如果是分区表,则必须填写分区字段分区字段的格式为:支持Linux Shell通配符,*表示0个或多个字符,表示任意一个字符。例如 ,分区表的分区字段配置格式为:month=201701,ds=20170101,/*query*/ month>=201701,动态分区字段的格式为:ds=${bizdate}
    • 当MySQL、SQL Server、PostgreSQL作为来源数据源时,没有分区信息,但需要配置筛选条件。配置筛选条件时,要填写where条件,但不包含where字段。例如,需要导入的表只包含id大于2并且name为dataphin的记录,则应该配置筛选条件为:id>2 and name="dataphin"
  7. 配置同步目标
    1. 选择数据源加载策略(包括两种:追加数据和覆盖数据)及分区字段
      选择同步目标
    2. 调整字段。同步来源和同步目标两边的字段名如果是一致的,则会默认匹配上。如果字段名不一致,则需要手动调整。可以先删除不匹配的字段,然后将鼠标悬停于字段列表的空白处,选择对应字段即可。
      调整同步字段
  8. 配置参数控制。配置参数控制是为了调整同步任务的并发数和容错率等。通常情况下,用户不需要配置,保持默认值即可。
    参数控制
    参数控制 说明
    速度上限 数据同步的传输速率,默认为1Mb/s。系统数据同步的传输速率会尽可能地达到速度上限,但是不会超过速度上限。速度上限会影响整个调度的资源情况,速度上限设置的越高,运行任务的调度资源量会越大。
    并发数 启动并发抽取数据的任务并发数。
    出错限制 指数据同步过程中,出错的记录数超过多少条则任务中止。默认为0条,即不允许出错。
  9. 配置同步任务的调度参数,并保存、提交,详情请参见调度配置