如何实现RDS全量和增量同步_云数据库HBase版(Hbase)-阿里云帮助中心

本文主要介绍RDS全量同步和增量同步的操作过程。

注意事项

RDS全量同步和增量同步功能于2023年3月10日下线。2023年3月10日后购买的LTS将无法使用RDS全量同步和增量同步功能，2023年3月10日前购买的LTS仍可正常使用此功能。

使用场景

RDS低成本历史库。
RDS数据全量迁移至云数据库HBase。

前提条件

LTS的购买时间在2023年3月10日之前。
已登录LTS页面，具体操作请参见登录同步任务。
LTS、云数据库HBase迁移集群、RDS实例的网络已连通（都在同一个VPC中可以跳过）。

功能特性

RDS数据全量和增量一体同步到HBase。
RDS数据变换，请参见任务创建。
RDS多表同步。

使用限制

RDS全量同步支持数据源MySQL。
RDS增量同步支持数据源DTS。
支持目标数据源包括云数据库HBase增强版和标准版。

任务创建

在LTS操作页面中，单击导入Lindorm/HBase > RDS全增量同步。
单击创建任务。
选择RDS数据源、DTS数据源以及目标数据源。
说明
- 添加RDS数据源请参见RDS数据源。
- 添加DTS订阅通道请参见DTS订阅通道。
- 添加HBase数据源请参见HBase数据源。
- 添加HBase增强版请参见HBase增强版。

在配置区域中单击编辑可以查看默认配置说明，也可以修改配置说明。具体语法请参见Jtwig语法说明。

HBase API访问同步配置说明

{
    "reader": {
        "querySql": [
            "select * from dts.cluster where id < 1000",//全量同步查询语句,一个语句对应一个读取线程
      "select * from dts.cluster where id >= 1000"//建议进行拆分提高速度和减小重试代价
        ]
    },
    "writer": {
        "columns": [
            {
                "name": "f:id",//目标表中字段名称
                "value": "id", //原表中字段名称
        "isPk": false //不影响同步忽略
            },
            {
                "name": "f:cluster_id",
                "value": "cluster_id",
                "isPk": false
            },
      {
        "name": "f:id_and_cluster",
                "value": "{{concat(id, cluster_id)}}",//支持Jtwig域名对数据进行变换
       }
        ],
        "rowkey": {
            //hbase模型中rowkey由RDS哪些字段组成,支持Jtwig语法,rowkey中使用的字段必须在columns中
            "value": "id" 
        },
        "config": {
            "skipDelete": true//跳过删除操作
        },
        "table": {
            "name": "dts:cluster",// Lindorm/HBase中表名
            "parameter": {
                "compression": "ZSTD",//Lindorm/HBase中,新建表压缩算法,推荐使用ZSTD
        "split":["1", "5", "9", "b"] //指定splitkey,对新建表进行预分区
            }
        },
        "sourceTable": "dts.cluster"
    }
}

选择要同步的表，单击生成配置。
说明
- RDS全增量同步先进行全量历史数据迁移,迁移完成后在进行增量数据迁移。
- 导入HBase默认生成列簇，RDS中的字段会和f下列一一对应,同时rowkey为RDS主键字符串拼接。
- 默认生成配置会跳过RDS删除操作如果保留需要手动修改配置,详见配置说明。
单击创建。