全部产品
云市场
云游戏

基本概念

更新时间:2020-04-10 17:42:37

数仓项目

数仓项目是“数据仓库”模式下开发和管理的单元;创建一个数仓项目,必须基于一个数仓引擎,也必须绑定一个数据库。

数仓引擎

数仓引擎对应于DMS中管理的数据库实例,数据仓库目前支持的数据库类型包括:ADB for MySQL 3.0、ADB for PostgreSQL、RDS for MySQL。此外,用做数据仓库的数据库实例必须处于安全协同模式下(管控模式的说明请参考这里)。

数据集成

数据集成提供了不同数据库之前传输数据的能力,方便用户将数据汇聚到数据仓库中进行开发。按实时性的不同,我们分为了实时同步、离线同步两种。

实时同步

实时同步采用阿里云DTS的数据同步功能,可以保证数据能实时同步到目标数据库中,是打造实时数仓的基础,具体的收费、购买、配置参考这里

离线同步

离线同步采用阿里云DTS的数据迁移功能,离线批量地将数据迁移到目标数据库中,还可结合调度实现周期性增量同步,如:每日增量。

数仓表

内部表

内部表(简称:内表)是真实存在于数仓引擎中的表,是数仓开发过程中数据加工、存储和交换的主要对象。内表可关联主题,打上业务标签;也可关联层级,实现数仓的分层管理。

外部表

外部表(简称:外表)是指数仓引擎之外、其他系统里的表。外部表需要在数仓开发中先定义,然后才能使用。当用户有少量数据存储在外部系统里,外表是一种便捷的访问方式,可实现外表数据的便捷导入,也可与内表进行关联查询。

主题

主题是根据业务情况进行纵向划分数据域的标签,DMS数据仓库当前支持两级主题,例如:一级主题日志域根据业务场景可以拆分为曝光、浏览、点击等二级主题:theme

层级

我们默认将数据仓库分为三层(可自行修改),自下而上为:数据引入层ODS,Operation Data Store)、数据公共层CDM,Common Data Model)和数据应用层ADS,Application Data Service)。

  • 数据引入层(ODS,Operation Data Store):将原始数据几乎无处理的存放在数据仓库系统,结构上与源系统基本保持一致,是数据仓库的数据准备区,主要完成基础数据引入到数据仓库的职责。
  • 数据公共层(CDM,Common Data Model,又称通用数据模型层),包含维度表(DIM)、明细事实表(DWS)和公共汇总层(DWD),由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。
  • 数据应用层(ADS,Application Data Service):存放数据产品个性化的统计指标数据。根据CDM与ODS层数据加工生成。

文件夹

提供内部表和任务节点的分类作用。

其他概念

其他概念,例如任务流变量定义运维中心任务编排模式下一致。