过滤与映射组件可以对数据按照过滤表达式进行筛选,并且您可以修改输出字段名称。

PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数:
  • 可视化方式
    参数 描述
    选择字段 选择要筛选的列,默认选择全部列。也可以修改输出字段名称。
    过滤条件 通过where条件实现数据过滤,与SQL类似,例如age>40
    说明 仅支持以下操作符:
    • =
    • !=
    • >
    • <
    • >=
    • <=
    • like
    • rlike
  • PAI命令方式
    PAI -name Filter
        -project algo_public \
        -DoutTableName="test_9" \
        -DinputPartitions="pt=20150501" \
        -DinputTableName="bank_data_partition" \
        -Dfilter="age>=40";
    参数名称 是否必选 参数描述
    outputTableName 输出表的名称
    inputPartitions 训练输入表分区。输入表对应的输入分区,选中全表则为None。
    inputTableName 输入表的名称
    filter 通过where条件实现数据过滤,与SQL类似,例如age>40
    说明 仅支持以下操作符:
    • =
    • !=
    • >
    • <
    • >=
    • <=
    • like
    • rlike