随机采样算法组件按照给定的比例或者数目,对输入进行随机采样,每次采样是各自独立的。

组件配置

您可以使用以下任意一种方式,配置随机采样组件参数。

方式一:可视化方式

在随机采样工作流页面配置组件参数。
页签参数描述
参数设置采样个数取值为正整数。
采样比例取值为浮点数,范围(0,1)
放回采样默认为不放回,勾选后变为放回。
随机数种子默认系统自动生成。
执行调优核心数取值为正整数,默认系统自动分配。
核内存分配取值为正整数,单位为MB,范围(1, 65536),默认系统自动分配。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本
PAI -name RandomSample \
    -project algo_public \
    -Dlifecycle="28" \
    -DoutputTableName="test2" \
    -Dreplace="false" \
    -DsampleSize="500" \
    -DinputPartitions="pt=20150501" \
    -DinputTableName="bank_data_partition";
参数名称是否必选参数描述默认值
inputTableName输入表的名称
inputTablePartitions输入表中,参与训练的分区。支持以下格式:
  • Partition_name=value
  • name1=value1/name2=value2:多级格式
说明 如果指定多个分区,则使用半角逗号(,)分隔。
outputTableName输出结果表
sampleSize采样个数
说明
  • 当sampleSize与sampleRatio都为空时,系统会报错。
  • 当sampleSize与sampleRatio都不为空时,以sampleSize为准。
sampleRatio采样比例,浮点数,范围(0,1)
replace是否放回,BOOLEAN类型。false
randomSeed随机数种子,取值范围为正整数。系统自动分配
lifecycle输出表的生命周期,取值范围为[1,3650]
coreNum计算的核心数目,取值范围为正整数。系统自动分配
memSizePerCore每个核心的内存(单位是MB),取值范围为(1, 65536)系统自动分配