Dataphin支持将用户真实的行为数据进行筛选和配置,生成行为规则。您可以基于该行为规则,对特定行为的用户进行打标归类,从而实现用户数据标签化管理。本文为您介绍如何创建和配置行为规则,及如何提交行为数据至生产环境。

前提条件

  • 已创建行为(行为域、业务线、动作和对象)。如何创建行为,请参见新建行为域新建业务线新建动作新建对象新建对象属性
  • 已创建来源表或已申请来源表的查询权限:
    • 如果使用自己负责的来源表,则需要提前完成来源表的创建:
      • 如果来源表的类型为物理表且非Dataphin内的数据表,则需要将数据表引入至Dataphin平台。如何引入数据表,请参见数据引入
      • 如果来源表的类型为逻辑表,则需要基于Dataphin创建事实逻辑表、维度逻辑表或汇总逻辑表:
    • 如果使用他人负责的来源表,则需要提前申请来源表的查询权限:

步骤一:创建行为规则

  1. 登录Dataphin控制台
  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>
  3. 在Dataphin首页,单击研发
  4. 鼠标悬停至开发上,单击萃取
  5. 按照下图指引,进入新建行为规则对话框。
    dagag
  6. 新建行为规则对话框,配置如下信息,完成后单击确定
    1. 配置行为规则的基本信息。
      gagaga
      参数 说明
      行为域和业务线 选择此前已创建的行为域和业务线。行为域指聚合业务含义一致的行为数据,例如电商域和文娱域。业务线用于分类管理行为域的行为数据。例如淘宝业务线和天猫业务线。
      动作 选择此前已创建的动作。动作指行为主体发出的操作,例如购买和浏览。
      对象 选择此前已创建的对象。对象指行为主体操作的具体事物,例如商品和电影。
    2. 配置行为规则的数据来源。
      gagaga
      参数 说明
      来源表类型 选择来源表的类型。Dataphin支持选择物理表逻辑表。适用场景说明如下:
      • 物理表是非逻辑表(维度逻辑表、事实逻辑表或汇总逻辑)的表。如果需要基于Dataphin内的物理数据表产出行为规则,则选择物理表

        您需要提前将物理表引入至Dataphin平台。具体操作,请参见数据引入

      • 逻辑表即Dataphin生成的维度逻辑表、事实逻辑表和汇总逻辑表。如果需要基于Dataphin已创建的逻辑表(维度逻辑表、事实逻辑表或汇总逻辑)产出行为规则,则选择逻辑表。逻辑表名的格式说明如下:
        • 维度逻辑表名格式为dim_自定义英文名
        • 事实逻辑表名格式为fct_业务过程英文名_自定义名称_difct_业务过程英文名_自定义名称_df
        • 汇总逻辑表名格式为dws_自定义英文名
        您需要提前创建事实逻辑表、维度表或汇总逻辑表:
      来源主表 后续规则配置中需要从来源主表中选择字段。Dataphin支持选择跨项目的数据表(Prod项目和Dev项目的数据表)作为来源主表。
      建议选择生产环境的数据表,以避免以下两种情况的发生:
      • 避免行为规则参与调度时,因该数据表在生产环境不存在而导致调度失败。
      • 避免配置行为规则调度参数时,自动解析依赖关系失败。
      生产环境数据表名称的格式说明如下:
      • ${Prod项目英文名}.物理表名
      • ${Prod业务板块英文名}.逻辑表名
      • ${Basic项目英文名}.物理表名
      • ${Basic业务板块英文名}.逻辑表名
      筛选条件 基于来源主表定义数据的筛选条件。例如,需要筛选业务日期为昨日的数据,则筛选条件填写为ds=${bizdate}

      如果选择生产环境的来源表,建议您在筛选条件时需要明确数据表的项目或业板块,避免规范性校验不通过。

      生产环境数据表名称的格式说明如下:
      • ${Prod项目英文名}.物理表名
      • ${Prod业务板块英文名}.逻辑表名
      • ${Basic项目英文名}.物理表名
      • ${Basic业务板块英文名}.逻辑表名

步骤二:配置行为规则

  1. 完成步骤一:创建行为规则后,系统默认进入规则配置页面。在规则配置页面,配置行为规则值。
    规则参数配置
    行为规则信息 行为规则值
    归一化配置 归一化配置用于唯一标识行为主体,即OneID。您可以通过以下方式引入ID倒排表:
    • 如果您有ID倒排表,则执行以下操作引入ID倒排表:
      1. 单击ID归一化配置
      2. 根据ID归一化配置页面提示,选择ID倒排表。
      3. 单击确定
      说明 仅支持选择当前项目内的ID倒排表。
    • 如果您没有ID倒排表,则在数据开发数据处理模块,引入ID倒排表,同时ID倒排表任务节点输出名称为Data_distill.倒排表名称(即项目名.表名),详情请参见新建SQL任务
    注意 仅支持超级管理员可以开启和关闭ID归一配置。ID归一化配置开启后,结果表生成的记录包括以下两种情况:
    • 如果已选行为主体ID_type映射成功,则结果表会按照OneID和原始ID_type分别生成记录。
    • 如果映射失败,则结果表仅按照原始ID_type生成记录。
    ID原始值 行为主体即进行某一行为的主体,例如购买商品行为中的行为主体就是客户。
    Dataphin中行为主体由ID_TypeID_value两个参数确定。其中,
    • ID_Type:选择系统字段OneID、Mobile、IPAddress、UserID、Email。您也可以单击新增ID类型,自定义ID_Type。
    • ID_value:需配置为业务数据来源表中,行为主体对应的字段名。

      ID_value下拉列表中展示来源表的所有字段,选择某一字段为ID_Type对应的ID_value。

    对象 对象即进行某一行为的对象,例如购买商品的行为中的对象就是商品。
    Dataphin中对象由对象标识对象名称参数确定。其中,
    • 对象标识:即对象ID。对象标识值需配置为业务数据来源表中,对象ID对应的字段名。

      标识值的下拉列表中展示来源表的所有字段。

    • 对象名称:需配置为业务数据来源表中,对象名称对应的字段名。

      对象名称的下拉列表中展示来源表的所有字段。

    添加对象标识值和对象名称的操作步骤如下:
    1. 标识值下拉列表中,选择来源表中的某一字段作为对象的ID。
    2. 单击对象名称右侧的gagag图标后,在下拉列表中选择某一字段作为对象名称。
    对象属性 对象属性即对象的事实性描述信息,例如视频对象的名称、年份、导演等。对象属性需要配置的参数包括属性属性值
    • 属性:选择已创建的对象属性。
    • 属性值:指定来源表中属性的字段。

      属性下拉列表中展示来源表的所有字段,选择某一字段为属性对应的属性值

    注意 请尽量保持属性值(来源字段)的稳定性,避免对统计类标签计算结果的影响。通常,同一个对象的同一属性值稳定且唯一。
    行为属性 可选配置参数,通常来源表为事实逻辑表时,才需要配置行为属性参数。行为属性即用户行为的描述信息。
    行为属性用于后续开发统计类标签的统计字段的权重分配依据。行为属性需要配置的参数包括发生次数金额时间频次
    • 发生次数即行为的发生次数。

      发生次数后的属性值下拉列表中选择某一字段为发生次数的属性值

      注意 如果您未设置发生次数字段,则系统将以每条行为数据记录为来源表的一条记录数据。
    • 金额即行为对应的金额,例如购买商品行为中对应的支付金额。

      金额后的属性值下拉列表中选择某一字段为金额的属性值

    • 时间即行为发生的时间,例如购买商品行为发生的时间。

      时间后的属性值下拉列表中选择某一字段为时间的属性值

    • 频次即为行为中动作发生的频次,例如购买商品中购买发生的频次。

      频次后的属性值下拉列表中选择某一字段为频次的属性值

  2. 配置行为规则的调度参数。
    1. 规则配置页面,单击页面上方的调度配置
    2. 调度配置面板,配置参数后,单击确定
      faga
      说明 Dataphin自动生成节点名称、节点ID和节点类型和描述的参数,不支持修改。
      分区 参数 说明
      基本信息 负责人 系统支持转交负责人。负责人操作权限取决于负责人的角色。关于角色对应的操作权限的信息,请参见数据萃取权限列表
      优先级

      优先级定义了同一时间同一批待调度任务的优先级。系统默认选择为中等优先级。您可以根据业务需求修改任务调度的优先级。系统支持的优先级包括最低优先级、低优先级、中等优先级、高优先级和最高优先级。

      调度配置 时间属性 选择行为规则任务在生产环境调度的时间属性。时间属性包括:
      • 正常调度:按照调度周期的时间配置调度,并正常执行,通常任务默认选中该项。
      • 暂停调度:即可暂停该任务的调度,会按照下面的调度周期时间配置调度,但是一旦调度到该任务会直接返回失败,不会执行。通常用于某个任务暂时不用执行,但后面还会继续使用的场景。
      调度周期 调度周期可选择:,您可以根据业务需要,指定任务运行的具体时间点。调度周期说明如下:
      • 调度,即调度任务每天自动运行一次。新建周期任务时,默认的时间周期为每天0点运行一次。
      • 调度,即调度任务每周的特定几天,在特定时间点自动运行一次。
      • 调度,即调度任务在每月的特定几天,在特定时间点自动运行一次。
      说明 调度和调度中,如果您没有指定任务的运行日期,为保证下游实例正常运行,Dataphin会每天生成实例后直接设置为运行成功,而不会真正执行任何逻辑,也不会占用资源。
      依赖关系 依赖解析 系统根据配置的来源主表的类型进行自动解析:
      • 如果来源主表的类型为物理表,则Dataphin仅支持自动解析出上游依赖的物理节点。能成功解析出依赖的物理节点需要满以下两个条件:
        • Dataphin内已有基于来源主表生成的周期任务。
        • 周期任务的节点输出名称格式为项目名.表名
      • 如果来源主表的类型为逻辑表,则Dataphin仅支持自动解析出上游依赖的逻辑表节点。只要该逻辑表被引用,则会解析出来源逻辑表对应的逻辑表节点。
        例如,来源表类型为逻辑表,来源主表为LD_kongyiyanwu****.DIM_GD01dagag依赖解析后,上游依赖的逻辑表节点就是来源主表节点(ld_kongyiyanwu****.dim_gd01)。gagag
      注意 草稿版状态的行为规则,只能自动解析出来源主表对应的节点。
      上游依赖 上游依赖展示行为规则节点依赖的物理节点和逻辑表节点。依赖解析后,Dataphin会自动解析到来源表对应的节点。
      如果基于业务场景,需要添加其他物理节点作为当前行为规则的上游节点,则需要手动添加物理节点:
      1. 单击新增上游依赖
      2. 新建上游依赖对话框中,输入所依赖节点的输出名称的关键字进行搜索节点。
        说明 节点的输出名称是全局唯一的,且不区分大小写。
      3. 单击确定新增
      注意 Dataphin不支持手动添加逻辑表节点。
      当前节点 当前节点为您展示行为规则的数据输出节点。行为规则的输出节点名称固定为oi_behavior_detail_d,不支持修改。

      如果行为规则已提交且被其他任务所依赖,则单击操作列下的图标,可以查看输出节点的下游节点。

  3. 配置行为规则的存储生命周期后,单击确定
    物理化配置
    参数 描述
    存储生命周期 存储生命周期用于定义行为规则在系统的生命周期。存储生命周期对所有的行为规则生效,默认36000天,无最大限制。

    建议您设定的存储生命周期大于或等于下游标签设定的来源数据时间跨度,否则标签数据可能出错。

    注意 仅超级管理员支持修改存储生命周期。
    选择分区字段 Dataphin默认展示dsbehavior_idsource_table,不支持修改。

步骤三:提交行为规则至生产环境

  1. 规则配置页面,单击页面上方的预览图标,预览已配置的行为规则数据。
  2. 单击页面上方的保存图标,保存已配置的行为规则。
  3. 单击页面上方的fagag图标,提交行为规则至生产环境。
  4. 提交备注对话框,填写备注信息后,单击确定提交,即可提交行为规则至生产环境。

    完成行为规则创建后,即可基于行为规则数据圈选需要打标的行为主体,并进行打标。具体操作,请参见新建工厂标签