让我们考虑一个简单的例子。让我们以查询 [plastic windows] 为例,从 <body> 标签内的前 10 个开始,计算每个页面中塑料窗的确切出现次数(不拆分为子区域)。

Chekushin_2
仔细看这张图,我们可以估计,要进入 TOP-10,我们需要 8 到 13 个条目。也许通过向上或向下稍微扩大范围的边界,但绝对不是 30 或 2。模式清晰可见,我们理解。注意第六位没有结果。这是因为有不同类型的页面 – 内部页面。为什么我们将主页面和内部页面分开分析将在其中一个示例中进行说明。

考虑另一个请求[购买塑料窗户]

Chekushin_3
现在更有趣了,对吧?很明显,没有明显的模式。合乎逻辑的假设是丢弃明显偏离总趋势的值(我们不知道它们为什么存在)。这正是分析仪自动执行的操作。例如,我们可以将值 1 和 6 作为非常低的 玻利维亚手机号码列表 值排除在外,将 5 作为非常高的值排除在外。分析仪给你的数字是这个范围的“中间”。中间是引号,因为算法有点复杂。但总的来说这是有道理的。

最后我们决定了可接受值的范围

电话号码列表

让我们继续讨论一个更难的问题——如果我们有多个查询,如何确定范围?

让我们再看一个例子:

Chekushin_4
在这种情况下,我们有[塑料窗]和[购买塑料窗]的请求。有必要了解我们在塑料窗的确切出现页面上可以做多少。为此,我们依次 cz 列表 分别计算每个请求的有效值范围,然后将它们相互叠加。叠加的结果就是两次查询取值的有效范围。对于多个请求,它的工作方式相同。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注