离线整库迁移用于将本地数据中心或在ECS上自建的数据库,同步数据至大数据计算服务、AnalyticDB for PostgreSQL等场景。例如,将ECS上自建的MySQL数据库的数据迁移至MaxCompute中。离线整库迁移可以批量配置离线管道,一次性完成数据库内多张数据表的同步文件的配置。本文为您介绍如何配置离线整库迁移。

背景信息

整库迁移是为了提升用户效率、降低用户使用成本的一种快捷工具,它可以快速配置数据库内多张数据表的同步文件。

操作步骤

  1. 登录Dataphin控制台
  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>
  3. 在Dataphin首页,单击顶部菜单栏的研发
  4. 按照下图指引,进入新建整库迁移页面。
    fagag您也可以鼠标悬停在图标,单击离线整库迁移aga
  5. 新建整库迁移页面,配置参数。
    1. 配置基本信息
      gaagf
      参数 描述
      脚本名称 脚本名称由字母、数字或下划线(_)组合组成,且字符长度为64个字符以内。
      描述 填写脚本管道的简单描述。
    2. 配置数据源信息。
      fava
      分区 参数 描述
      同步来源 数据源类型 选择数据源类型。系统支持的数据源类型包括MySQL、Oracle和Microsoft SQL Server。
      数据源 选择数据源。您也可以单击新建数据源创建数据源,详情请参见数据源faf
      同步目标 数据源类型 选择数据源类型。当前仅支持选择MaxCompute。
      数据源 选择数据源。您也可以单击新建数据源创建数据源,详情请参见数据源
    3. 配置同步数据表。
      gagag
      参数 描述
      来源表 选择来源表。
      对应目标库表 选择来源表后,生成对应目标库表,名称默认与源表名一致。
      转换配置 如果您需修改来源表的数据:
      1. 单击转换配置
      2. 编辑转换规则页面:
        • 单击表名转换后的新增规则,根据页面提示完成参数配置,即可修改来源表名。
        • 单击字段名转换后的新增规则,根据页面提示完成参数配置,即可修改来源表中的字段名称。
        • 表名前缀输入框中填写表名前缀。
        • 数据过滤输入框中填写过滤条件,例如gmt_modified>=${bizdate}
        aga
      3. 配置完成后单击保存并执行对应目标库表展示转换后的数据。
      完成同步数据表的配置后,页面为您展示生成的管道数。同时您也可以选中自动删除MaxCompute中同名表,选中后Dataphin会先自动删除MaxCompute中已经存在的,且与整库生成同名的表,再重新自动创建表。
    4. 设置同步方式和配置同步并发。
      cesho
      参数 描述
      同步方式设置 选择同步方式。同步方式设置包括每日全量每日增量
      同步并发配置 选择同步并发配置。同步并发配置包括每日全量分批上传
  6. 完成参数的配置后,单击生成管道,完成离线整库迁移管道的创建并提交。
    运行结果区域,查看数据同步任务的运行状态。gagag
  7. 如果项目空间的模式为Dev-Prod,则需要发布离线整库迁移至生产环境。具体操作,请参见管理发布任务

后续步骤

在运维中心查看并运维集成任务,保证任务的正常运行。具体操作,请参见脚本任务手动任务