现在网络搜索中大约有 1500 个不同的因素

现在网络搜索中大约有 1500 个不同的因素。为什么这么多？

例如，如果我们开始按上述因素之一对输出进行排序，那么我们当然可以选择前十名，但用户不太可能喜欢这样的结果。为了区分好文档和坏文档，搜索必须考虑许多不同的参数。

所有这些参数都可以分为几类

• 静态文档

• 要求

经典简单的是文本因素。在这里，我们可以通过查询的词、这些词在文档中的接近程度、这些词与文档开头的接近程度等来评估文档的覆盖率。

Yandex 拥有特殊工具，可让您评估特定因素对排名的有用性。以下是使用此工具测试新因素的结果：

Yandex_4
在这种情况下，绿色条的颜色表示所贝宁手机号码列表检查的因素对排名的无疑好处。出现这样的结果后，开发人员可以开始将此因素纳入排名公式。

这里的搜索有这么多因素，接下来该怎么办？不可能单独排序，因为每个单独 – 它们代表相当弱的特征。将它们组合成一个通 cz 列表 用排名公式是合乎逻辑的，这将使搜索能够更有效地对文档进行排序。相对来说，我们把这1500个因素全部组合成一个数，然后按这个数排序。

想必大家都听说过 Yandex 中主要的机器学习工具之一，叫做 Matrixnet。这不是一个算法，而是一整套机器学习算法，但它们都以某种方式使用 GBRT 算法（梯度提升回归树：

Yandex_5
这是一组决策树，其选择方式是通过对这些树的叶子中的值求和，可以很好地预测评估员给出的相关性分数。在树的节点处是分离条件，它们是这样的：如果是，那么我们就往左走，如果不是，就往右走。