决策树上的梯度提升在集群上训练

决策树上的梯度提升
决策树就是这样一种数据结构——一棵二叉树——在所有数据节点中，除了叶子节点之外，都有一个由一些因子或数字划分的分区，并且在叶子顶点中有数字。这是将树应用于文档的方式：

梯度提升是简单模型（在本例中为决策树）的总和，每个模型都会改进前一个组合的结果。

Matrixnet 不是任意的决策树，而是所谓的“不经意的决策树”，其中每一层都有一个分区，根据相同的特征和相同的编号。这种构建树的方法具有一组特征：

获得非常简单的模型以防止过度拟合

• 使用超平面划分空间，这意味着为哥伦比哥伦比亚手机号码列表亚手机号码列表了计算工作表中的值，您需要计算所有划分的值，这意味着以什么顺序进行并不重要

• 正规化。有必要保证没有叶子，其中几乎没有对象，所以你必须想出各种正则化来惩罚这种情况。有几种方法可以跨多个服务器并行化决策树上的梯度提升：

1.通过符号

2.根据文件

如果我们按特征并行学习（当不同的特征位于多个服务器上时），那么需要通过网络发送的信息量将与文档数量成正比。由于我们拥有的文档数量非常大，而且还在不断增长，我们负担不起这个，我们根据文档并行训练。

在决策树上训练所有梯度提升的瓶颈是 cz 列表 树结构的选择，即一组特征将构成我们的下一棵树。选择有两种方式：

1. master-slave模式，当有一个master节点和一组slaves时，每个slave节点统计一些特征，发送给master，master聚合后选出最好的特征

2. all radius mode，没有专门的master，每个节点自己统计所有的统计信息并聚合

这些方法中的每一种都有严重的缺点。