2016 年 11 月 9 日 米哈伊尔·茹科维茨 7817
让我们不要再一次记住“什么是集群”和“它有什么用”。长期以来,这些问题已经得到各种服务的回答,这些服务提供基于 SERP 的聚类搜索查询服务。下面我们将分析如何免费或以象征性费用自行执行此简单程序。

首先你需要安装和配置 python,但由于很少有人想搞砸这个,我建议你立即转向 Anaconda 程序集,它可以让你快速安装 python 本身和所有必要的库。

以下是 python 3 的代码片段

关键字的向量表示
为了使我们的关键字易于处理,我们需要对它们进行矢量化。这听起来很吓人,但实际上一切都非常简单——所有关键短语 突尼斯手机号码列表 都被分解成独特的单词并进行编码。事实上,它们被转换成一个大列表,然后我们放置一长串数字而不是每个关键字,这些数字对应于我们所有唯一单词的列表。如果这个词在短语中,那么我们放 1,如果不在,那么我们放 0。结果就像这样一张表。

为了不发明自行车使用现成的图书馆很方便

电话号码列表

这样的矩阵可以使用 scikit-learn 库中的 CountVectorizer 类获得。z_2
在这里,我们创建了两个不同的向量化器,它们只有一个参数不同——最小词频。对于向量化器cv,它考虑的单词的最小 cz 列表 频率是1,而对于cv2,它是2,即在构造向量时不考虑所有频率小于2的单词。如果一个词在所有关键短语中只出现一次,那么用这些信息占用 RAM 就没有意义了。对于一个在任何地方都没有成对的单词,我们将无法找到任何合适的交集。

我们将在其上分析矢量化示例的短语列表的处理结果显示了最终比较表的变化情况。

z_3
只使用一次的词被删除,我们冗长的关键短语变成了两个词的短语。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注