项目是一种物理空间上的划分,帮助您管理数据中台建设过程中的物理资源及开发人员。本文为您介绍如何新建项目。

前提条件

背景信息

新建项目的限制:
  • 仅支持超级管理员角色和板块管理员角色的用户新建项目。
  • 一个计算源仅支持被一个项目绑定。
  • 项目绑定计算源后,不支持修改计算源。
  • 如果Dev项目中配置了实时计算源或离线计算源,为了对应的Prod项目中任务正常计算,则Prod项目需要配置实时计算源或离线计算源。
  • 系统仅支持项目管理员和板块管理员角色的账号,关闭和开启数据表读写的权限申请。
Dataphin支持两种模式的项目。
模式 描述
Dev-Prod模式 生成相隔离的DevProd项目,保障了Prod项目中的数据安全。如果您管理诉求较强,数据研发人员较多且能力及分工明确,数据计算存储预算较高,推荐此模式。
说明Dev-Prod模式下,新建项目默认生成两个项目。其中开发环境下的项目英文名默认以_dev作为后缀。
Basic模式 生成Basic项目,数据生产过程稳定且便捷。如果您关注数据研发效率,研发人员职能边界模糊,计算存储预算有限制,推荐此模式。

绑定离线计算源时,可以选择同步创建对应的数据源。您无需再次新建与计算源连接信息完全一致的数据源,提升了产品的易用性。同时,系统自动新建数据源时,默认选择项目名称作为数据源的名称,这样数据同步或数据集成时,您只需要关注项目名称,降低了产品的使用门槛。

系统通过项目粒度的方式,管控项目中的元表和物理表的读取和写入数据的权限申请。规避了审批者误操作,导致的数据泄露与安全问题。

新建Dev-Prod模式的项目

  1. 登录Dataphin控制台
  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>
  3. 进入数仓规划页面。
    • 在Dataphin首页,单击顶部菜单栏的规划
    • 在Dataphin首页,单击顶部菜单栏下方的智能数仓规划
  4. 在左侧导航栏中,单击项目管理
  5. 项目管理页面,单击右上方的新建项目
  6. 新建项目对话框,选择Dev-Prod模式
  7. 单击下一步
  8. 新建项目对话框,配置参数。
    区域 参数 描述
    名称设置 公用名称 公用名称的限制:
    • 公用名称由汉字、数字、字母、下划线(_)或短划线(-)组合组成。
    • 不支持以LD_开头(业务板块英文名默认以LD_作为前缀),以免引用逻辑表和物理表时出现冲突。
    公用英文名 公用英文名的限制:
    • 公用英文名由字母、数字、下划线(_)组合组成。
    • 如果计算引擎为MaxCompute,建议您将项目的公用英文名设置为与对应的MaxCompute项目名一致。
    • 不支持以LD_开头(业务板块英文名默认以LD_作为前缀),以免引用逻辑表和物理表时出现冲突。
    命名空间 业务板块 非必填写项。为新建的项目选择所属业务板块。
    说明 如果您购买的Dataphin实例为基础研发版,则系统不支持选择业务板块。
    空间类型 区分项目开发任务及产出数据特征,默认为应用层。空间类型包括3种:
    • 基础层:来自各个业务数据库的原始数据存储,是后续所有数据建设的来源与基础,也可称为垂直数据中心。
    • 公共层:基于各业务数据,抽象公共的主题,沉淀标准、规范、可共用的数据,是连接基础层与应用层的中间桥梁,也称为公共数据中心。
    • 应用层:面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标等。
    项目1:Dev 离线 绑定离线计算源:
    • 如果计算引擎为MaxCompute且有多个项目,建议您确认配置的Access Key是否为项目管理员权限(具有跨项目访问权限)。如果没有管理员权限,则需要根据赋权代码进行Access Key授权。以免您在Dataphin系统中跨项目访问时物理层的数据库鉴权失败。
    • 已绑定项目的离线计算源,无法被其他项目再次绑定。
    如果选中同步创建数据源,系统自动为您创建数据同步或数据集成的目标数据源。创建数据源的机制,详情请参见同步创建数据源的机制
    说明 系统仅支持为项目绑定离线计算源时,同步创建数据源。
    实时 绑定实时计算源。
    英文名 系统根据公用英文名命名。命名规则为公用英文名_dev
    名称 系统根据公用名称命名。命名规则为公用名称_开发
    描述 Dev项目的简单描述。
    项目2:Prod 实时 绑定实时计算源。
    离线 绑定离线计算源,请参见项目1:Dev中离线计算源的描述。
    说明 Dev项目和Prod项目不支持绑定同一个计算源。
    英文名 系统根据公用英文名命名。
    名称 系统根据公用名称命名。
    描述 Prod项目的简单描述。
    通用功能控制 数据读权限申请 选择开启或关闭项目下所有元表和物理表读数据的权限申请。

    关闭数据读权限申请,则项目下所有的物理表和元表不允许申请读取数据的权限,已申请过的权限,系统不收回。

    数据写权限申请 选择开启或关闭项目下所有元表和物理表写数据的权限申请。

    关闭数据写权限申请,则项目下所有的物理表和元表不允许申请写入数据的权限,已申请过的权限,系统不收回。

    其他设置 沙箱白名单 配置Shell、Python等任务可以访问的IP地址、域名或数据库的链接地址等,操作步骤如下:
    1. 单击新建,根据页面提示输入访问地址端口
    2. 单击图标,完成沙箱白名单的添加。

    您也可以单击沙箱白名单所在行的操作下的图标,删除已有的沙箱白名单。

  9. 单击确定,完成DevProd项目的创建。

新建Basic模式项目

  1. 项目管理页面,单击右上方的新建项目
  2. 新建项目对话框,选择Basic模式
  3. 单击下一步
  4. 新建项目对话框,配置参数。
    fagag
    区域 参数 描述
    基本设置 离线 绑定离线计算源:
    • 如果计算引擎为MaxCompute且有多个项目,建议您确认配置的Access Key是否为项目管理员权限(是否具有跨项目访问权限)。如果没有管理员权限,则需要根据赋权代码进行Access Key授权。以免您在Dataphin系统中跨项目访问时物理层的数据库鉴权失败。
    • 已绑定项目的离线计算源,无法被其他项目再次绑定。
    如果选中同步创建数据源,系统自动为您创建数据同步或数据集成的目标数据源。创建数据源的机制,详情请参见同步创建数据源的机制
    说明 系统仅支持为项目绑定离线计算源时,同步创建数据源。
    实时 绑定实时计算源。
    英文名 英文名的限制:
    • 由字母、数字、下划线(_)组合组成。
    • 不支持以LD_开头(业务板块英文名默认以LD_作为前缀),以免引用逻辑表和物理表时出现冲突。
    名称 名称的限制:
    • 名称由中文、数字、字母、下划线(_)或短划线(-)组合组成。
    • 不支持以LD_开头(业务板块英文名默认以LD_作为前缀),以免引用逻辑表和物理表时出现冲突。
    描述 填写Basic项目简单描述。
    命名空间 业务板块 非必填写项。为新建项目选择所属业务板块。
    说明 如果您购买的Dataphin实例为基础研发版,则系统不支持业务板块。
    空间类型 区分项目开发任务及产出数据特征,默认为应用层。空间类型包括3种:
    • 基础层:来自各个业务数据库的原始数据存储,是后续所有数据建设的来源与基础,也可称为垂直数据中心。
    • 公共层:基于各业务数据,抽象公共的主题,沉淀标准、规范、可共用的数据,是连接基础层与应用层的中间桥梁,也称为公共数据中心。
    • 应用层:面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标等。
    通用功能控制 数据读权限申请 选择开启或关闭项目下所有元表和物理表读数据的权限申请。

    关闭数据读权限申请,则项目下所有的物理表和元表不允许申请读取数据的权限,已申请过的权限,系统不收回。

    数据写权限申请 选择开启或关闭项目下所有元表和物理表写数据的权限申请。

    关闭数据写权限申请,则项目下所有的物理表和元表不允许申请写入数据的权限,已申请过的权限,系统不收回。

    其他设置 沙箱白名单 配置Shell、Python等任务可以访问的IP地址、域名或数据库的链接地址等,操作步骤如下:
    1. 单击新建,根据页面提示输入访问地址端口
    2. 单击图标,完成沙箱白名单的添加。

    您也可以单击沙箱白名单所在行的操作下的图标,删除已有的沙箱白名单。

  5. 单击确定,完成Basic项目的创建。

同步创建数据源的机制

Basic模式的项目。
  • 绑定的离线计算源类型为MaxCompute,同步创建数据源时,系统自动配置的参数信息如下。
    参数 描述
    数据源类型 系统默认配置为MAX_COMPUTE
    数据源名称 系统默认配置为计算源名称。
    数据源描述 系统默认配置为项目的描述。
    数据源配置 系统默认选择为生产数据源
    Endpoint 系统默认填写项目绑定的离线计算源的连接信息。
    Project Name
    Access ID
    Access Key
  • 绑定的离线计算源类型为AnalyticDB For PostgreSQL,同步创建数据源时,系统自动配置的参数信息如下。
    参数 描述
    数据源类型 系统默认配置为ADB_FOR_PG
    数据源名称 系统默认配置为计算源名称。
    数据源描述 系统默认配置为项目的描述。
    数据源配置 系统默认选择为生产数据源
    JDBC URL 系统默认填写项目绑定的离线计算源的连接信息。
    Schema
    用户名
    密码
Dev-Prod模式的项目。
  • 绑定的离线计算源类型为MaxCompute,同步创建数据源时,系统自动配置的参数信息如下。
    参数 描述
    数据源类型 系统默认配置为MAX_COMPUTE
    数据源名称 系统默认配置为Prod计算源英文名。
    数据源描述 系统默认配置为Prod项目的描述。
    数据源配置 系统默认选择为生产+开发数据源
    开发数据源 Endpoint 系统默认填写Dev项目绑定的离线计算源的连接信息。
    Project Name
    Access ID
    Access Key
    生产数据源 Endpoint 系统默认填写Prod项目绑定的离线计算源的连接信息。
    Project Name
    Access ID
    Access Key
  • 绑定的离线计算源类型为AnalyticDB For PostgreSQL,同步创建数据源时,系统自动配置的参数信息如下。
    参数 描述
    数据源类型 系统默认配置为ADB_FOR_PG
    数据源名称 系统默认配置为Prod计算源英文名。
    数据源描述 系统默认配置为Prod项目的描述。
    数据源配置 系统默认选择为生产+开发数据源
    开发数据源 Endpoint 系统默认填写Dev项目绑定的离线计算源的连接信息。
    Project Name
    Access ID
    Access Key
    生产数据源 Endpoint 系统默认填写Prod项目绑定的离线计算源的连接信息。
    Project Name
    Access ID
    Access Key
系统校验创建的数据源。
  • 数据源重名校验:如果已存在同名数据源,则数据源创建失败,项目创建不阻断。
  • 数据源测试连接:如果测试连接失败,则数据源创建失败,项目创建不阻断。
如果数据源创建失败,则您可以通过编辑项目或信息设置的方式,再次创建数据源。