当然,细心的读者会注意到许多重要的词被向量化器设置切割并具有语义对,但是没有灵魂的机器本身无法看出“模型”和“模型”只是同一词的不同变格单词。为了消除此类错误,我们将首先执行一个称为词形还原的过程——将单词形式变为其正常形式。

z_4
通过这种简单的方式,我们可以将所有关键短语转换为规范化形式并重新训练向量化器。

结果我们得到以下矩阵

z_6
现在,在应用第二个矢量化器之后,我们设法保存了更多有用的信息。他善于看到“模型”一词和“无线电控制”的各种形式。

由于所有 SEO 专家都知道字数很少 瑞典手机号码列表 能转化为质量,因此最好使用 TfidfVectorizer 而不是 CountVectroizer。它与之前的向量化器非常相似,但它不是数字 1 或 0,而是放入每个单词的重要性,通过Tf-Idf计算。

它的使用方式与常规 CountVectorizer 完全相同

电话号码列表

但返回不同的结果。

z_7
好吧,锦上添花的是词形还原器和 TfidfVectorizer 在一个类中兼容,这将允许您即时执行转换。一般来说,这对于集群 cz 列表 任务来说不是必需的,但在我看来,这样的代码看起来更方便和可读。使用与否是每个人的个人问题。

z_8
设置矢量器
所有已解析的矢量化器都有一些可能会派上用场的常规设置:

• 停用词——矢量化过程中不会考虑的词列表;

• token_pattern 是将字符串划分为标记的正则表达式。通常这只是词的划分,但可以区分其他实体;

• max_df – 频率高于此值的标记将不予考虑。您可以通过系数指定百分比 – 0.9 表示将丢弃 10% 的最常用词;

• min_df – 频率低于此值的标记将不予考虑。您可以通过系数指定百分比 – 0.1 表示将丢弃 10% 的最稀有词。

可以在此处找到所有参数的完整列表。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注