计算每个页面中塑料窗的确切出现次数

让我们考虑一个简单的例子。让我们以查询 [plastic windows] 为例，从 <body> 标签内的前 10 个开始，计算每个页面中塑料窗的确切出现次数（不拆分为子区域）。

Chekushin_2
仔细看这张图，我们可以估计，要进入 TOP-10，我们需要 8 到 13 个条目。也许通过向上或向下稍微扩大范围的边界，但绝对不是 30 或 2。模式清晰可见，我们理解。注意第六位没有结果。这是因为有不同类型的页面 – 内部页面。为什么我们将主页面和内部页面分开分析将在其中一个示例中进行说明。

考虑另一个请求[购买塑料窗户]

Chekushin_3
现在更有趣了，对吧？很明显，没有明显的模式。合乎逻辑的假设是丢弃明显偏离总趋势的值（我们不知道它们为什么存在）。这正是分析仪自动执行的操作。例如，我们可以将值 1 和 6 作为非常低的玻利维亚手机号码列表值排除在外，将 5 作为非常高的值排除在外。分析仪给你的数字是这个范围的“中间”。中间是引号，因为算法有点复杂。但总的来说这是有道理的。