什么是K均值聚类组件,有哪些参数_工业大脑(Industrial Intelligence)-阿里云帮助中心

本文为您介绍K均值聚类组件。

功能说明

K均值聚类是一种矢量量化方法，在数据挖掘的聚类分析中很流行。K均值聚类通过试图分离 n 个相等方差组的样本来聚集数据，用最小化或者簇内和平方的标准。该算法需要指定簇的数量，它可以很好地扩展到大量样本，并已经被广泛应用于许多不同的领域。

K-means通常分为三个步骤：

1.选择初始质心，随机选择k个样本作为初始质心。

2.将每个样本分配到距离其最近的质心，作为一个簇中的数据。

3.通过取分配给每个先前质心的所有样本的平均值来创建新质心。

计算新旧质心之间的差异，算法重复最后两个步骤，直到质心不再发生明显的变化，或者达到预定的迭代次数。

参数名	参数描述	是否必填	输入数据类型	数据源类型
特征变量	配置模型特征变量。	是	整数或浮点数说明若存在非数值数据，则会抛出异常。	CSV组件。 IGateInOffline组件。平台上其他数据处理组件。按照平台规范开发的自定义组件。

参数名	参数描述	输出数据类型
输出	聚类完成后输出具体的聚类类别“label”。	整型

参数名	参数描述	是否必填	参数默认值	参数范围
簇的数量	要形成的簇的数量以及要生成的质心的数量。	是	8	[2,99999999]
运行次数	k均值算法将在不同质心种子下运行的次数n，最终结果将是n次连续运行的最佳输出。说明由于K均值聚类是结果受初始值影响的局部最优的迭代算法，因此需要多跑几次以选择一个较好的聚类效果，默认是10，一般不需要改。如果你的k值较大，则可以适当增大这个值。	是	10	[1,99999999]
最大迭代次数	单次运行的k均值算法的最大迭代次数。说明如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。	是	300	[1,99999999]
算法	自动：根据数据值是否是稀疏的，来决定选择“K-Means”或“elkan K-Means”。建议直接使用此默认选项。 elkan K-Means：数据值稠密可以选择此算法。 K-Means：数据值稀疏可以选择此算法。	是	自动	自动 K-Means算法 elkan K-Means算法

参数名	参数描述
模型结果	模型结果展示模型聚类效果以及聚类结果，其中“CH分数（即Calinski-Harabasz指标）”和“轮廓系数”反应聚类效果，值越大，说明聚类效果越好。