数据集成是基于Dataphin构建的简单高效的数据同步平台,致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力。

背景信息

面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。

因此,Dataphin升级了数据集成的能力,旨在为您构建简单高效、安全可靠的数据同步平台:
  • 支持通过整库迁移(快速生成批量同步任务)和一键生成目标表(同步到Maxcompute的数据无需手动建表)的方式,提高数据集成的效率,详情请参见配置离线整库迁移管理MaxCompute组件
  • 支持流程转换组件,实现数据源的数据预处理(例如清洗、转换、字段脱敏、计算、合并、分发、过滤等)能力,详情请参见配置离线单条管道
  • 支持丰富的异构数据源,实现数据源之间数据高速稳定的同步能力,详情请参见配置离线单条管道配置离线整库迁移
  • 支持Dev-Prod和Basic的开发模式,您可以根据业务场景进行灵活选择开发模式。
  • 支持将Dataphin中创建的逻辑表快速地同步到目标库。

如果您是在2020年4月份之后购买的Dataphin,则数据同步能力已升级为数据集成。

功能概述

数据集成支持通过简单的拖拽、配置并组装组件的方式,生成管道脚本。同时系统也支持对管道脚本进行运维配置,包括调度配置管道配置

Dataphin中数据集成的全局流程。aaga
  1. 数据源的配置,详情请参见数据源
  2. 管道脚本的组装及配置,系统支持单个和批量同步任务的配置,详情请参见配置离线单条管道配置离线整库迁移
  3. 发布管理,详情请参见管理发布任务
  4. 运维调度,详情请参见概述