使用 K-Means 算法按短语组成进行聚类

所以我们终于开始了集群，所有这一切都是为了它开始的。在此示例中，我们将考虑按短语的组成进行聚类，这将使我们能够突出显示那些彼此密切相关且具有大量重要单词交集的短语。

对于进一步的工作，我们将需要scikit-learn 库中的 KMeans 类。下面是准备部分的屏幕截图，我们从外部文本文件加载关键字，创建一个矢量化类并填写停用词列表（如果有的话）。

要配置 KMeans 算法使用以下参数很方便

• n_clusters – 数据将被划分成的簇数。该算法的缺点是需要一开始就指定将单词分成多少组。

• max_iter – 最大迭代次数。当达到这个数字时，作业将被强制停止。有时算法会“粘”在某些类型的数据上，并指定一个特定的静态数字，这样可以避免无休止的工作。

• n_init – 算法将使用不同的初始台湾手机号码清单质心进行初始化的次数。初始化次数越多，集群描述真实数据结构的能力就越好，算法运行的时间也就越长。

• n_jobs – 算法的并行工作流数量

• random_state – 一个参数，允许您通过不同的算法运行实现相同结果的再现性

集群本身并不占用太多空间。

z_10
所以你可以看到我们在那里得到了什么，并使用最后一个片段，将结果保存在 csv 中

z_11
Yandex SERP 的层次聚类
z_12
分层算法不是将样本的一个分区构建 cz 列表 到非重叠的集群中，而是构建一个嵌套分区系统。在输出处，我们得到一棵聚类树，它的根是整个样本，叶子是最小的聚类。