决策树上的梯度提升
决策树就是这样一种数据结构——一棵二叉树——在所有数据节点中,除了叶子节点之外,都有一个由一些因子或数字划分的分区,并且在叶子顶点中有数字。这是将树应用于文档的方式:

梯度提升是简单模型(在本例中为决策树)的总和,每个模型都会改进前一个组合的结果。

Matrixnet 不是任意的决策树,而是所谓的“不经意的决策树”,其中每一层都有一个分区,根据相同的特征和相同的编号。这种构建树的方法具有一组特征:

获得非常简单的模型以防止过度拟合

• 使用超平面划分空间,这意味着为 哥伦比 哥伦比亚手机号码列表 亚手机号码列表 了计算工作表中的值,您需要计算所有划分的值,这意味着以什么顺序进行并不重要

• 正规化。有必要保证没有叶子,其中几乎没有对象,所以你必须想出各种正则化来惩罚这种情况。有几种方法可以跨多个服务器并行化决策树上的梯度提升:

1.通过符号

2.根据文件

即 一组特征将构成我们的下一棵树

电话号码列表

如果我们按特征并行学习(当不同的特征位于多个服务器上时),那么需要通过网络发送的信息量将与文档数量成正比。由于我们拥有的文档数量非常大,而且还在不断增长,我们负担不起这个,我们根据文档并行训练。

在决策树上训练所有梯度提升的瓶颈是 cz 列表 树结构的选择,即 一组特征将构成我们的下一棵树。选择有两种方式:

1. master-slave模式,当有一个master节点和一组slaves时,每个slave节点统计一些特征,发送给master,master聚合后选出最好的特征

2. all radius mode,没有专门的master,每个节点自己统计所有的统计信息并聚合

这些方法中的每一种都有严重的缺点。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注