配置同步任务是将数据源的数据同步到目标表的过程。本文为您介绍如何配置同步任务。

配置流程

同步任务的配置流程如下图。配置流程
来源表和目标表均支持多种数据源。按照数据源类型,将支持的数据源分类如下:
  • 关系型数据库:MySQL、Vertica、Oracle、SQL Server、PostgreSQL、RDS、DRDS。
  • 阿里云大数据数仓存储:MaxCompute。
  • 开源大数据数仓存储:Hive。
  • 非结构化数据存储:FTP、HDFS、ElasticSearch。
  • NoSQL数据存储:MongoDB 。

同时,支持以MySQL、PostgreSQL、Oracle、SQL Server、Vertica为基础存储的同库分表作为来源数据的数据同步形式。

操作步骤

  1. 登录Dataphin
  2. 在Dataphin首页,单击顶部菜单栏的研发,进入研发页面。
  3. 选择开发 > 数据处理 > 同步任务,进入同步任务页面。
  4. 单击已创建的同步任务,根据同步任务配置页面提示完成参数的配置:
    1. 配置同步来源区域的参数。fagag
      参数 描述
      数据源 选择数据的来源。
      模式
      • 如果数据源为MySQLPostgreSQLSQL ServerOracle,则需选择表的模式。系统支持选择单表多表
        • 单表模式下,可以搜索表名,支持前缀匹配,在匹配到的下拉列表中选择需要的来源表。
        • 多表模式下,支持按照输入的表达式规则,匹配多张相同结构的数据表。例如,输入a2019061[0-5]
      • 如果数据源为VerticaAnalyticDBDRDSMaxComputeHiveFTPHDFSElasticSearchMongoDB,则系统默认支持只能选择单表。
      选择数据的来源表。
      分组字段 如果来源表是分区表,则需填写分区字段,例如ds=${bizdate}
    2. 配置同步目标区域的参数。dfafa
      参数 描述
      数据源 选择所在项目的计算源。
      选择已创建同步目标表。
      加载策略 选择数据同步时的加载策略。系统支持的 加载策略包括:
      • 覆盖数据即以当前来源表为准,覆盖目标表中的历史数据。
      • 追加数据即在目标表的已有的数据基础上追加数据,且不修改历史数据。
      筛选条件 如果数据源为MySQLSQL ServerPostgreSQL,没有分区信息,则需配置筛选条件。配置筛选条件时,需填写where条件,但不包含where字段。例如,如果需要导入的表只包含id大于2且name为dataphin的记录,则筛选条件配置为id>2 and name="dataphin"
      分组字段 如果来源表是分区表,则需填写分区字段,例如ds=${bizdate}
    3. 配置来源字段区域的参数。选择来源表后,来源表的字段会展示在来源字段区域内。faga您可以单击字段所在行操作列下的gagaga,删除来源字段。

      如果需要再次添加已删除的字段,则单击新建字段,根据弹框提示,填写字段及描述、选择数据类型,单击新增,完成已删除字段的添加。

    4. 配置目标字段区域的参数。选择目标表后,目标表的字段会展示在目标字段区域内。fagag您可以单击字段所在行操作列下的gagaga,删除目标字段。

      如果需要再次添加已删除的字段,则执行单击新建字段,根据弹框提示,填写字段及描述、选择数据类型,单击新增,完成已删除字段的添加。

  5. 调整字段:
    • 如果来源字段目标字段的字段名一一对应,则系统默认匹配。
    • 如果来源字段目标字段的字段名没有对应起来,则需手动调整。您可以删除不匹配的字段后,将鼠标悬停在字段列表的空白处,选择对应字段即可。
  6. 配置参数控制。配置参数控制是为了调整同步任务的并发数和容错率等。通常情况下,您不需要配置,保持默认值即可。参数控制
    参数控制 说明
    速度上限 数据同步的传输速率,默认为1MB/s。系统数据同步的传输速率会尽可能地达到速度上限,但是不会超过速度上限。速度上限会影响整个调度的资源情况,速度上限设置的越高,运行任务的调度资源量会越大。
    并发数 启动并发抽取数据的任务并发数。
    出错限制 指数据同步过程中,出错的记录数超过多少条则任务中止。默认为0条,即不允许出错。
  7. 请参见调度配置,完成同步任务调度参数的配置后,单击页面右上角的fagag保存代码任务,然后单击fagag,完成代码任务的提交,同时系统将同步任务的状态标记为已提交
    您可以对已提交状态的同步任务,执行如下操作。
    操作 描述
    编辑 编辑同步任务:
    1. 将鼠标悬停在某个同步任务后的“更多”按钮上,单击编辑
    2. 进入同步任务配置页面修改同步任务,更多内容请参见配置同步任务

      代码编写页面仅限解锁及被您自己锁定的状态方可编辑,如果他人锁定显示,单击进行偷锁,偷锁成功后显示,您可以开始编辑同步任务。

    说明 保存完成修改的已提交状态的同步任务后,系统自动将同步任务的状态调整为开发中
    重命名 重命名同步任务:
    1. 将鼠标悬停在某个同步任务后的“更多”按钮上,单击重命名
    2. 在文件夹名称的输入框中,填写名称后回车,完成同步任务的重命名。
    移动 移动同步任务:
    1. 将鼠标悬停在某个同步任务后的“更多”按钮上,单击移动
    2. 移动文件夹对话框中,选择目录后,单击确定,完成同步任务的移动。
    下线 下线同步任务:
    • 将鼠标悬停在某个同步任务后的“更多”按钮上,单击下线,完成同步任务下线。
    • 提示弹框中,单击确定并提交
    下线并删除 下线并删除同步任务:
    • 将鼠标悬停在某个同步任务后的“更多”按钮上,单击下线并删除,完成同步任务删除。
    • 提示弹框中,单击确定并提交
  8. 请参见发布管理,完成同步任务的发布 。