主成分分析(PCA)是研究如何通过少数主成分揭示多个变量间的内部结构,考察多个变量间相关性的一种多元统计方法。PCA从原始变量中导出少数主成分,使它们尽可能多地保留原始变量的信息,并且彼此间互不相关,作为新的综合指标。

使用限制

主成分分析算法实现了降维和降噪的功能,仅支持稠密数据格式。

参数配置

PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数,如下所示:
  • 可视化方式
    页签 参数 描述
    字段设置 选择特征列 输入表中用于分析的列名称。
    附加列 附加在降维数据表后的列。
    参数设置 信息量比例 降维后数据信息占原来的比例。
    特征分解方式 分解特征的方式,取值如下:
    • CORR
    • COVAR_SAMP
    • COVAR_POP
    数据转换方式 转换为新数据的处理方式,取值如下:
    • Simple
    • Sub-Mean
    • Normalization
    执行调优 生命周期 指定输出表的生命周期,取值为正整数。
    节点个数 单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。
    单个节点内存大小 单位为兆。取值范围为[1024, 64*1024]的正整数。
  • PAI命令方式
    PAI -name PrinCompAnalysis
        -project algo_public
        -DinputTableName=bank_data
        -DeigOutputTableName=pai_temp_2032_17900_2
        -DprincompOutputTableName=pai_temp_2032_17900_1
        -DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
        -DtransType=Simple
        -DcalcuType=CORR
        -DcontriRate=0.9;
    参数名称 是否必选 参数描述 默认值
    inputTableName 进行主成分分析的输入表。
    selectedColNames 输入表中用于分析的列名称。

    使用逗号分隔,支持INT和DOUBLE类型。

    eigOutputTableName 特征向量与特征值的输出表。
    princompOutputTableName 进行主成分降维降噪后的结果输出表。
    transType 转换原表为主成分分析表的方式,取值如下:
    • Simple
    • Sub-Mean
    • Normalization
    Simple
    calcuType 对原表进行特征分解的方式,取值如下:
    • CORR
    • COVAR_SAMP
    • COVAR_POP
    CORR
    contriRate 数据信息降维后保留的百分比。取值范围为(0,1) 0.9
    remainColumns 降维表保留原表的字段。
    coreNum 节点个数,与memSizePerCore参数配对使用。取值范围为[1, 9999]的正整数。 系统自动分配。
    memSizePerCore 单个节点的内存大小,单位为兆。取值范围为[1024, 64*1024]的正整数。 系统自动分配。
    lifecycle 指定输出表的生命周期,取值为正整数。

示例

PCA输出示例
  • 降维后的数据表降为数据表
  • 特征值和特征向量表特征值和特征向量表