数仓项目是数据仓库模式下开发和管理的单元。数仓项目必须基于一个数仓引擎,也必须绑定一个数据库。
数仓引擎
数仓引擎对应DMS中管理的数据库实例,数据仓库目前支持的数据库类型包括:ADB for MySQL 3.0、ADB for PostgreSQL、RDS for MySQL。此外,用做数据仓库的数据库实例必须处于安全协同模式下,管控模式的说明请参见管控模式。
数据集成
数据集成提供了不同数据库之间传输数据的能力,方便用户将数据汇聚到数据仓库中进行开发。按实时性的不同,我们分为了实时同步、离线同步两种。
- 实时同步
实时同步采用阿里云DTS的数据同步功能,可以保证数据能实时同步到目标数据库中,是打造实时数仓的基础,具体的收费、购买、配置请参见DTS数据同步方案概览。
- 离线同步
离线同步采用阿里云DTS的数据迁移功能,离线批量地将数据迁移到目标数据库中,还可结合调度实现周期性增量同步,如:每日增量。
数仓表
- 内部表
内部表(简称:内表)是真实存在于数仓引擎中的表,是数仓开发过程中数据加工、存储和交换的主要对象。内表可关联主题,打上业务标签;也可关联层级,实现数仓的分层管理。
- 外部表
外部表(简称:外表)是指数仓引擎之外、其他系统里的表。外部表需要在数仓开发中先定义,然后才能使用。当用户有少量数据存储在外部系统里,外表是一种便捷的访问方式,可实现外表数据的便捷导入,也可与内表进行关联查询。
- 主题
主题是根据业务情况进行纵向划分数据域的标签,DMS数据仓库当前支持两级主题,例如:一级主题日志域根据业务场景可以拆分为曝光、浏览、点击等二级主题。
- 层级
我们默认将数据仓库分为三层(可自行修改),自下而上为:
- 数据引入层(ODS,Operation Data Store):将原始数据几乎无处理的存放在数据仓库系统,结构上与源系统基本保持一致,是数据仓库的数据准备区,主要完成基础数据引入到数据仓库的职责。
- 数据公共层(CDM,Common Data Model,又称通用数据模型层),包含维度表(DIM)、明细事实表(DWS)和公共汇总层(DWD),由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。
- 数据应用层(ADS,Application Data Service):存放数据产品个性化的统计指标数据。根据CDM与ODS层数据加工生成。
文件夹
提供内部表和任务节点的分类作用。
其他概念
例如任务流、变量定义、运维中心等其他概念可参见任务编排基本概念。
在文档使用中是否遇到以下问题
更多建议
匿名提交