DataWorks(大数据开发治理平台)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,支持多种计算和存储引擎服务。本文介绍通过DataWorks将MongoDB的离线数据迁移至Lindorm宽表。
背景信息
有关大数据开发治理平台DataWorks,具体请参见什么是DataWorks。
注意事项
将MongoDB的离线数据迁移至Lindorm宽表时,需要将MongoDB嵌套的JSON数据展开成水平结构,并且不涉及数据的变换。
说明 如果迁移过程中需要对某些数据进行处理,例如对MongoDB数据中主键进行MD5散列,需要按照如下步骤操作:
- 通过DataWorks将MongoDB数据迁移至MaxCompute(ODPS)。
- 在MaxCompute(ODPS)上执行SQL处理数据。
- 通过DataWorks将MaxCompute数据迁移至Lindorm宽表。
准备工作
将MongoDB的离线数据迁移至Lindorm宽表需要完成以下准备工作。
- MongoDB的数据准备如下:
{ "id" : ObjectId("624573dd7c0e2eea4cc8****"), "title" : "MongoDB教程", "description" : "MongoDB是一个NoSQL数据库", "by" : "菜鸟教程", "url" : "http://www.runoob.com", "map" : { "a" : "mapa", "b" : "mapb" }, "likes" : 100 }
- Lindorm宽表的Schema数据准备如下:
CREATE TABLE t1 ( title varchar not null primary key, desc varchar, by varchar, url varchar, a varchar, b varchar, likes int);
- 使用大数据开发治理平台DataWorks的数据集成服务配置DataX任务,具体操作请参见使用DataWorks配置DataX。
操作步骤
- 在DataWorks控制台配置MongoDB数据源,具体操作请参见配置MongoDB数据源。
- 通过脚本模式配置离线数据同步任务,具体请参见通过脚本模式配置离线同步任务。