什么是梯度提升决策树,有哪些参数_工业大脑(Industrial Intelligence)-阿里云帮助中心

本文为您介绍梯度提升决策树组件。

功能说明

GBDT（Gradient Boosting Decision Tree）是一种迭代的决策树算法，由多棵决策树组成，是进行多分类的算法模型。梯度提升采用连续的方式构造树，每棵树都试图纠正前一棵树的错误。默认情况下，梯度提升决策树中没有随机化，而是用到了强预剪枝。梯度提升树通常使用深度很小的数，这样模型占用内存更少，预测速度也更快。

计算逻辑原理

GBDT是一种迭代的决策树算法，由多棵决策树组成，每棵树只能对部分数据做出好的预测，所有树的结论累加起来得到最终结果，因此，添加的树越来越多，可以不断迭代提高性能。是一种泛化能力较强的算法。

参数说明

IN端口-输入参数

参数名	参数描述	输入数据类型	数据源类型
特征变量	配置模型特征列	整数或浮点数说明若存在非数值数据，则会抛出异常。	CSV组件。 IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件。
目标变量	配置模型目标列	整数或浮点数或字符	CSV组件。 IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件。

模型端口-输出参数

参数名	参数描述	输出参数	输出数据类型
模型	输出算法训练后模型存储的地址。	模型地址	字符

算法参数

参数名	参数描述	是否必填	参数默认值	参数范围
损失函数	选择损失函数类型，指数损失函数只支持二分类目标。	否	对数似然	对数似然指数
学习率	学习率。	否	0.1	[0,1]
树数量	要执行的提升阶段数。梯度提升对于过度拟合具有相当强的鲁棒性，因此大量提升通常会带来更好的性能。	否	100	[0,10000]
最大深度	各个回归估计量的最大深度。最大深度限制了树中节点的数量。	否	3	[0,100]
分割样本下限	树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值，节点将分裂。	否	2	[0,10000]
叶节点所需样本下限	分支所需要的样本下限。	否	1
采样率	用于拟合各个基础学习者的样本比例。	否	1.0	[0,1]
测试集比例	测试模型的数据占总输入数据的比例，用于计算模型的评价指标，默认0.2。	是	0.2	[0,1]
测试集生成方式	随机：按比例随机从输入数据中截取n条数据作为测试集；头部：按比例将输入数据前n条数据作为测试集；尾部：按比例将输入数据后n条数据作为测试集。剩余部分作为训练集。	是	随机	随机头部尾部
特征重要性展示特征数	模型特征重要性展示时，实际展示的特征个数。只展示最重要的n个特征，默认10。若设置的展示数小于实际特征数，则展示实际特征数。	是	10	[1,20]

其他参数

参数名	参数描述
模型结果	可以查看建模成功后的模型评价结果。