本文为您介绍本教程的背景信息、准备工作和操作流程。

背景信息

本教程带您体验Dataphin的数据萃取功能。基于Dataphin生产的数据资产,数据萃取模块能够识别并关联数据资产中的主数据(即贯穿各隔离业务的核心对象),提炼可直接应用的高价值标签数据,从而帮助企业构建自己的萃取数据中心。

本教程基于电商销售场景,为您介绍如何构建用户偏好标签,助力企业寻找业务发力点。

准备工作

说明 完成数据萃取模块的初始化配置后,即可在萃取项目(Data_distill)下开发数据:
  • 如果您已有项目,则可以初始化配置数据萃取模块。
  • 如果您还没有项目,则无法初始化配置数据萃取模块。需要新建个测试项目(例如test)后,再开始初始化配置数据萃取模块。
  • 新建计算源(basic)的MaxCompute(ODPS)项目,配置如下参数,其余参数保持默认,详情请参见创建工作空间
    参数 描述
    工作空间名称 填写basic_odps
    选择计算引擎服务 选择MaxCompute
    实例显示名称 填写test
  • 新建计算源(Data_distill)的MaxCompute(ODPS)项目,配置如下参数,其余参数保持默认,详情请参见创建工作空间
    参数 描述
    工作空间名称 填写Data_distill_odps
    选择计算引擎服务 选择MaxCompute
    实例显示名称 填写Mytest
  • 新建项目的计算源(basic),详情请参见新建计算源
    参数 描述
    计算类型 默认为MaxCompute,不支持修改。
    计算源名称 填写basic
    计算源描述 填写Baisc项目计算源
    Endpoint 默认为计算引擎的Endpoint,不支持修改。
    Project Name 填写basic_odps
    Access ID 填写访问密钥中的AccessKey ID,您可以通过用户信息管理页面获取。
    Access Key 访问密钥中的AccessKey Secret,您可以通过用户信息管理页面获取。
  • 新建萃取项目的计算源(Data_distill),详情请参见新建计算源
    参数 描述
    计算类型 默认为MaxCompute,不支持修改。
    计算源名称 填写Data_distill
    计算源描述 填写Data_distill项目计算源
    Endpoint 默认为计算引擎的Endpoint,不支持修改。
    Project Name 填写Data_distill_odps
    Access ID 填写访问密钥中的AccessKey ID,您可以通过用户信息管理页面获取。
    Access Key 访问密钥中的AccessKey Secret,您可以通过用户信息管理页面获取。
  • 新建Baisc模式的项目,配置如下参数,其余参数保持默认,详情请参见新建项目
    说明
    • 如果您已有项目,则不需要新建项目。
    • 如果您还没有项目,则需要新建个测试项目(例如test)后,再开始初始化配置数据萃取模块。本教程以新建Baisc模式的项目为例。您也可以新建Dev-Prod模式的项目。
    参数 描述
    计算源 选择basic计算源。
    英文名 输入test
    名称 输入测试
  • 初始化配置数据萃取模块。
    说明 完成数据萃取模块的初始化配置后,即可在萃取项目(Data_distill)下开发数据。
    1. 登录Dataphin控制台
    2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>

      您也可以单击快速开始相关工作下的数据研发,快速进入数据开发模块。

    3. 在Dataphin页面,单击顶部菜单栏中的研发
    4. 鼠标悬停至开发上后,单击萃取,进入初始化配置页面。ddd
    5. 计算引擎源选择Data_distill后,单击测试连接性
    6. 测试连接通过后,单击确定并开始初始化,初始化成功后即可在萃取模块开发数据。

操作流程

主流程 说明 操作指导
创建业务数据 通常,您的业务数据需通过创建同步任务或管道任务的方式,集成到Dataphin平台中的萃取项目中,以构建行为规则和标签。本教程为了让您快速熟悉标签构建的流程,采用代码任务的方式构建业务数据。 步骤一:创建数据表
创建行为元素 行为元素包括行为域、业务线、动作、对象和对象属性。本教程中的行为元素为:
  • 行为域:电商。
  • 业务线:淘宝。
  • 动作:购买、浏览和收藏。
  • 对象:商品。
  • 对象属性:商品价格和商品类目。
步骤二:创建行为元素
创建行为规则 行为规则根据行为和来源表唯一确定,将规范结构化的行为明细(行为域、业务线、动作、对象和对象属性)与实际数据进行匹配。本教程中行为规则包括:
  • 购买商品行为规则。
  • 收藏商品行为规则。
  • 浏览商品行为规则。
步骤三:创建行为规则
创建商品价格偏好标签 基于已创建的行为元素和行为规则,创建商品价格偏好的标签。 步骤四:创建商品价格偏好标签
创建商品类目价格偏好标签 基于已创建的行为元素和行为规则,创建商品类目偏好的标签。 步骤五:创建商品类目偏好标签
查询偏好数据 查询某个用户的偏好数据。 步骤六:查询偏好数据