SDDP支持扫描的数据源有哪些?

SDDP支持对结构化数据源和非结构化数据源进行扫描。

支持的时间 数据源类型
2019年7月 阿里云RDS:MySQL类型(结构化数据)
阿里云MaxCompute项目(结构化数据)
阿里云OSS对象存储文件(非结构化数据)

数据源授权完成后需要多长时间完成扫描?

敏感数据保护(SDDP)完成数据源授权后,会在2小时内启动扫描。扫描时长将由您所需扫描的数据量决定。当存在大量数据表时(例如:表数量超过10000张),或者OSS文件总量特别大(例如:OSS总量超过PB)时,扫描周期会相应延长。在SDDP扫描数据的过程中,已经完成扫描的阶段性结果,会在SDDP控制台概览页面展现。详细内容请参见控制台总览

SDDP对于非结构化数据源(OSS)的扫描机制是怎样的?

SDDP对非结构化数据源中存储的内容进行扫描,根据扫描结果判断是否为敏感数据。

  • 首次扫描:完成授权后,SDDP会对授权的OSS存储桶(Bucket)中的文件进行全量扫描。
  • 增量扫描:如果OSS文件有新增或修改时,SDDP会扫描该新增或修改的文件。

是否支持对已扫描过的OSS文件重新扫描?

如果文件没有修改,SDDP不会对已扫描过的文件重新扫描;如果文件已被修改,SDDP会在4-8小时内对该文件重新扫描。

SDDP后续将会上线手动扫描功能,支持对指定的OSS存储桶执行手动扫描任务。

SDDP对于结构化数据源(RDS/MaxCompute)的扫描机制是怎样的?

SDDP扫描数据库类型和数据表类型数据源中的字段名称和字段值,同时根据字段名称和值综合判断该数据是否为敏感数据。例如:年龄数据。如果只通过字段值无法判断数据是否敏感,SDDP会结合数据源列中的字段名称和对应的数值来综合判断。

  • 首次扫描:完成授权后,SDDP会扫描整个数据库/数据项目中所有的表。
  • 增量扫描:当有新增数据库/数据项目表时,SDDP会对新增表进行扫描;如果现有数据表结构(列)发生变化,SDDP也会对该表进行扫描。

SDDP是否会登录到数据库内获取数据?

已获取授权的情况下,SDDP会登录到数据库内以数据采样的方式对数据进行敏感识别,SDDP不会保存您MaxCompute项目/RDS数据库中的数据。

目前存在哪些触发重新扫描的场景?

目前,SDDP会在以下场景中自动触发对已授权数据源中的数据进行重新扫描。

重新扫描的场景 扫描逻辑 计费影响
数据源首次完成授权接入。 扫描该数据源中的所有数据。 对该数据源中的所有数据收取全量扫描费用。
数据源完成授权接入并已进行过扫描后,数据源发生了变化。 在MaxCompute/RDS数据表结构发生变化后(仅指数据表的列有新增或删减),会触发自动扫描并扫描有变化的列;数据表的行发生变化不会触发自动扫描。 对该数据源中的所有数据收取全量扫描费用。
在OSS文件新增和修改后会触发自动扫描。
说明 OSS Bucket中的文件仅被删除时不会触发自动扫描。
仅对该新增或修改的文件收取扫描费用。
敏感数据识别规则的配置发生了变化(包括新增、开启、关闭或删除规则)。 会对所有已授权的数据源中的全部数据进行自动扫描。 对所有已授权的数据源收取全量扫描费用。

是否存在不触发扫描的场景?

如果单个OSS文件大小在200MB以上,SDDP不会对其进行扫描。目前,SDDP只扫描单个文件大小在200MB以下的OSS文件。

说明 压缩包视为一个单独的文件。因此,压缩包中所有文件加起来大小在200MB以上,不会触发扫描。