不过,高级搜索结果的选择问题并不新鲜,Yandex 长期以来一直在努力解决这个问题。第一个标志是 2008 年在Magadan算法中引入了关键字同义词的第一个变体 – 翻译和音译。然后通过创建一个特殊的词典极大地扩展了同义词。2010 年克拉斯诺达尔算法中还引入了 Spectrum 技术- 试图通过考虑可能的选项来扩大发行量,以扩大在一般的、相当含糊的请求中指定的用户需求。

但所有这些创新都没有解决长尾的相关问题

现在出现了Palekh。立即确定哪些发行结果是由该算法专门生成的任务变得非常有趣。

我在我的文章“Yandex 有机搜索结果的杂质”中写了关于识别 Yandex 有机搜索结果的各种已知混合物,包括由 Spectrum 技术形成的混合物。

大约一个月前(在 Palekh 宣布 希腊手机号码清单 之前)我收到了一个奇怪的请求,该问题的不同结果让我认为其中可能会出现一些新的东西。根据请求发布位于黑山布德瓦市的俄语学校“亚得里亚海学院”的名称,包含指向与黑山其他俄语学校相关的文件的链接,并且没有在摘要中突出显示请求中的关键字:

paleh_1
事实证明,这些页面根本不包含查询词

无论是在内容中还是在传入链接的文本中

电话号码列表

paleh_2通常,对于仅使用查询词的同义词找到的文档,相似图片是典型的。因此,例如,文档首先具有完全相同的属性,在片段 cz 列表 中向我们展示了突出显示的同义词(即,将查询词翻译成英文):paleh_3不包含在文档中,例如,任意乱码),在这些文档的输出行为不同,在一种情况下文档继续存在,而在另一种情况下则不是:paleh_4这使得可以假设在这种情况下输出为空的文档以某种其他方式进入输出,而不是使用自 Magadan 发布以来传统的同义词计算机制。我称这种现象为“非典型同义词”。
进一步的研究表明,在使用“非典型同义词”找到的基本查询[Adriatic College]的搜索结果中表现良好的文档可以使用以下查询很好地找到(前 5 个文档中至少有 4 个具有此类属性):

paleh_5这表明查询[Adriatic College]和[Russian school in Montenegro]之间存在某种联系,或者在含义和关键字集上相似。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注