现在网络搜索中大约有 1500 个不同的因素。为什么这么多?

例如,如果我们开始按上述因素之一对输出进行排序,那么我们当然可以选择前十名,但用户不太可能喜欢这样的结果。为了区分好文档和坏文档,搜索必须考虑许多不同的参数。

所有这些参数都可以分为几类

• 静态文档

• 要求

经典简单的是文本因素。在这里,我们可以通过查询的词、这些词在文档中的接近程度、这些词与文档开头的接近程度等来评估文档的覆盖率。

Yandex 拥有特殊工具,可让您评估特定因素对排名的有用性。以下是使用此工具测试新因素的结果:

Yandex_4
在这种情况下,绿色条的颜色表示所 贝宁手机号码列表 检查的因素对排名的无疑好处。出现这样的结果后,开发人员可以开始将此因素纳入排名公式。

机器学习在提高搜索质量方面的作用

电话号码列表

这里的搜索有这么多因素,接下来该怎么办?不可能单独排序,因为每个单独 – 它们代表相当弱的特征。将它们组合成一个通 cz 列表 用排名公式是合乎逻辑的,这将使搜索能够更有效地对文档进行排序。相对来说,我们把这1500个因素全部组合成一个数,然后按这个数排序。

想必大家都听说过 Yandex 中主要的机器学习工具之一,叫做 Matrixnet。这不是一个算法,而是一整套机器学习算法,但它们都以某种方式使用 GBRT 算法(梯度提升回归树:

Yandex_5
这是一组决策树,其选择方式是通过对这些树的叶子中的值求和,可以很好地预测评估员给出的相关性分数。在树的节点处是分离条件,它们是这样的:如果是,那么我们就往左走,如果不是,就往右走。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注