本文为您介绍同步任务及如何通过Shell代码任务实现同步任务。

同步任务

同步任务节点的配置,请参见数据引入模块的配置同步任务

代码任务

Dataphin支持通过Shell配置同步任务。Shell任务中引用到的JSON文件需提前创建,因此需要您在资源管理中上传JSON资源包,然后在Shell任务中进行引用。

  1. 本实例以MySQL数据库为例,下载JSON文件实例。根据JSON文件提示将您的数据库信息填写至JSON文件中。
  2. 登录Dataphin。
  3. 在Dataphin首页,单击研发 > 数据处理 > 资源管理,进入资源管理页面。
  4. 单击资源管理后的,进入新建资源页面。
  5. 完成参数配置后,单击提交。在弹出的提交备注页面,填写备注信息并单击确定并提交,即可完成DataX资源的创建。
    参数 说明
    类型 类型包括:
    • file
    • jar
    • python
    • others
    此处选择others。
    名称 填写新建资源的名称,例如DataX.json。
    描述 填写资源的描述。
    上传文件 上传DataX.json文件。
    选择目录 选择资源文件的所放置的目录。
  6. 数据处理页面,单击代码任务,进入代码任务页面。
  7. 单击代码任务后的,单击SHELL
  8. 根据页面提示完成参数配置,单击确定,进入DataX任务代码编写页面。
    参数 说明
    名称 填写代码任务的名称,例如DataX。
    调度类型 选择周期性节点
    描述 填写对任务的简单描述。
    选择目录 选择代码任务的目录。
  9. 在DataX任务代码编写页面,进行编写代码任务。
    编写的代码如下。
    @required_resource{required_memory=2Gb;required_cpus=1.0}
    @resource_reference{"Datax.json"}
    python $DATA_HOME/bin/datax.py --jvm '-Xms2g -Xmx2g' Datax.json
    其中,
    • required_resource{},对所需资源大小进行自定义配置。
    • 系统已经内置DataX_Home为DataX的安装目录,DataX的入口类在DataX安装的bin文件下。
    • --jvm '-Xms2g -Xmx2g'用来指定DataX实际运行时的JVM内存,建议您将内存的大小设置成与required_resource中的required_memory一致。
    对于所需资源较小的DataX任务,您可以使用如下代码示例。
    @resource_reference{"Datax.json"}
    python $DATA_HOME/bin/datax.py Datax.json
  10. 完成代码编写后,单击页面右上角的进行保存,然后单击进行提交代码。发布该代码任务请参见发布管理, 发布后的Shell代码任务参与生产环境的调度。