DataWorks支持通过内置敏感字段类型和自定义敏感字段类型,有效识别组织内的敏感数据。本文将为您介绍如何新建、配置数据识别规则。

背景信息

DataWorks支持您按照数据的敏感级别和所属分类定义数据识别规则,帮助您识别组织内的敏感数据,对于识别结果不准确的数据,您可以手动修正数据,并在数据发现模块为您展示近一周通过数据识别规则命中的、按照项目细分的字段详情,数据识别规则的使用逻辑如下图所示。逻辑图

进入数据识别规则

  1. 登录DataWorks控制台后,进入数据保护伞页面,操作详情请参见概述
  2. 单击开始体验,默认进入数据保护伞的首页
  3. 单击左侧导航栏中的规则配置 > 数据识别规则,您可以新增敏感字段类型并配置识别规则。

配置敏感字段所属分类

  • 如果您是首次使用数据保护伞的新用户,进入数据识别规则页面后会在左侧区域展示数据分类分级模板的默认分类,您可以输入分类名称进行搜索。还支持您单击分类名称后的添加图标添加同层分类添加子分类重命名删除分类。
  • 如果您是已使用过数据保护伞的老用户,进入数据识别规则页面后需要您根据需求在左侧区域创建数据分类。单击未分类后的添加图标添加分类。
说明
  • 分类名称必须唯一,仅支持中英文、数字,长度限制1~30个字符。
  • 删除时请先确认该分类下是否有已发布的敏感字段类型。如果有,请将该分类下全部敏感字段类型下架后方可删除。详情请参见批量下架
分类分级模板

添加敏感字段类型

  1. 选择敏感字段所在的数据分类

    在左侧的内置分类分级模板区域选择新增敏感字段所在的数据分类。

  2. 新增敏感字段类型并配置识别规则
    单击右上角的+敏感字段类型
    • 基本信息对话框中配置敏感字段类型信息,单击下一步敏感字段类型
      配置 说明
      敏感字段类型 自定义敏感字段类型的名称,例如:姓名、身份证号、手机号等。
      说明 定义敏感字段类型时,名称必须唯一,当存在重名时系统会提示敏感字段类型重复
      所属分类 下拉列表展示步骤1选中的分类,如果您需要修改分类可在下拉列表中选择目标分类。
      所属分级 选择敏感字段类型所属级别,对配置的数据进行等级划分。如果现有的分级不满足需求,请进入数据分类分级页面进行设置,详情请参见数据分类分级
      描述信息 对当前敏感字段进行简单描述,长度0~100字符,不包含特殊字符。
    • 规则配置对话框中,选择敏感字段识别规则并测试规则准确性。配置规则
      配置 说明
      内容扫描 根据规则类型定义敏感数据识别规则的内容,用于匹配敏感数据的文本。
      • 规则类型选择正则表达式时:在正则表达式文本框中手动输入该类型的正则表达式,并在测试数据输入框中输入样本数据测试识别规则准确性。
      • 规则类型选择内置识别规则时:单击请选择内置识别规则下拉框,选择内置识别规则,并在测试数据输入框中输入样本数据测试识别规则准确性。
      • 规则类型选择样本库时:单击请选择样本库下拉框,选择已配置的样本,并在测试数据输入框中输入样本数据测试识别规则准确性。样本配置请参见创建并管理样本库
      • 规则类型选择自生成模型时:单击请选择自生成模型下拉框,选择自生成模型,并在测试数据输入框中输入样本数据测试识别规则准确性。自生成模型配置请参见自生成数据识别模型
      说明 仅DataWorks专业版及以上版本,才可以使用内容扫描功能。如果您使用的是低版本的DataWorks,则需要升级至专业版及以上版本,才可以使用该功能。升级DataWorks版本,详情请参见DataWorks增值版本
      字段扫描 在输入框中输入需要识别为敏感数据的字段,支持多个字段匹配,各字段间为或关系。输入格式为:project.table.column,其中任一段可以使用*作为通配符,例如。
      • abcd.efg.*:abcd的project下efg表中所有字段都会被识别为敏感数据。
      • ab*.*.salary:ab开头的project下,所有表中的salary字段都会被识别为敏感数据。
      • *cd.ef*.sa*ry:cd结尾的project下,ef开头的表中,所有以sa开头、ry结尾的字段都会被识别为敏感数据。
      字段排除 在输入框中输入需要排除的字段,排除的字段不会被对应的识别规则命中。输入格式为:project.table.column,其中任一段可以使用*作为通配符,例如。
      • abcd.efg.*:abcd的project下efg表中所有字段都会被排除,不会识别为该类敏感数据。
      • ab*.*.salary:ab开头的project下,所有表中的salary字段都会被排除,不会识别为该类敏感数据。
      • *cd.ef*.sa*ry:cd结尾的project下,ef开头的表中,所有以sa开头、ry结尾的字段都会被排除,不会识别为该类敏感数据。
    • 确认配置无误后,您可以单击保存草稿将新增的敏感字段类型状态置为草稿,您还可以单击发布使用,未配置识别规则时不可发布,发布使用按钮置灰;信息配置完整时可发布,单击发布使用后,状态置为已发布,并触发新识别任务。

完成敏感字段类型的配置后,可在数据发现数据访问数据风险等模块通过筛选已配置的敏感字段类型及级别进行查看。

管理敏感字段类型

  • 复制敏感字段类型

    单击相应敏感字段类型后的复制图标,即可生成一个完全一致的规则。复制后的名称加后缀-副本,复制的规则默认状态为草稿,您可以根据需求进行配置。

  • 编辑敏感字段类型

    单击相应敏感字段类型后的编辑图标,可以修改敏感字段的规则配置。内置敏感字段类型不可修改敏感字段类型名称、所属分类、所属分级信息,自定义敏感字段类型支持修改敏感字段类型信息。

  • 删除敏感字段类型
    单击相应敏感字段类型后的删除图标,在对话框中单击删除即可。
    注意 删除敏感字段类型影响较大,请仔细阅读以下影响后再确认是否删除。
    • 识别结果中该敏感字段类型的记录将会删除。详情请参见手动修正数据
    • 数据发现中的敏感数据分布信息将不统计该敏感字段类型。详情请参见数据发现
    • 已配置的风险识别规则中有对应配置项的将会取消该敏感字段类型。详情请参见风险识别管理

批量发布

发布对应的敏感字段类型后,系统开始进行敏感数据识别,识别结果请参见数据发现

  1. 单击批量发布按钮,勾选需要发布的敏感字段类型
    说明 状态为已发布的敏感字段不可勾选。
  2. 单击发布,对应敏感字段类型的状态置为已发布。
  3. 点击取消,恢复原始状态。
发布

批量下架

下架对应敏感字段类型后系统将不再进行该类敏感数据的识别,数据发现、手动修正数据等模块中的该类敏感字段类型的记录将会删除。在进行下架操作前,请确认该敏感字段类型是否被数据脱敏规则风险识别规则引用,如果有需要先将数据脱敏规则置为失效,并取消风险识别规则中的引用。详情请参见数据脱敏管理风险识别管理

  1. 单击批量下架按钮,勾选需要下架的敏感字段类型
  2. 单击下架,单击对应敏感字段类型的状态置为草稿。
  3. 点击取消,恢复原始状态。
下架