准确的电话号码和 WhatsApp 号码提供商。如果您想要电子邮件营销活动列表或短信营销活动，那么您可以联系我们的团队。 @xhie1

Whatsapp: +639858085805

WhatsApp 电话号码数据

更好的是处理它们的

来自 evsyowsf|已发表 12 11 月, 2024

经典和基本的方法对于使用我们能够访问的语料库没有用……我们该如何解决呢？有几种技术可以帮助我们克服这些限制，并且即使在语料库非常有限的情况下也能够进行录音。让我们回顾一下它们。

添加“停用词”

由于缺乏语料库来帮助我们检测该语言中最常见的单词，我们引入这些单词，而不是像 IDF 中那样最小化它们，而是将它们从分析中完全消除。

例如，在 PMI 中，我们不仅需要查

看两个术语的相关程度，还需要检测一个术语单独出现的次数。因为？好吧，为了避免被告知最大的共现总是诸如“the”、“the”、“of”等词。否则，当分析哪 WhatsApp 电话号码数据个词与“SEO”同现最多时，我们会发现这个词总是“The”，因为人们通常写“the SEO”。

由于我们没有能力进行如此复杂的分

因此我们要做的技巧是手动从分析中删除所有这些单词：

冠词、常用助词、介词、数字等。我们有许多方法完全遵循虚拟化概念创建一个包含所有这些单词的单词列表，并在分析它们之前将它们从文本中删除。

结果将是：

强调真正重要的术语。您可以选择从文本中删除最后的元音或元音+“s”。
或者选择一些不那么激烈的东西，比如消除“es”、“s”和“e”的词尾。
例如，“truck”和“trucks”经过处理后变成“truck”，生成相同的单词或伪词素。
我们通过删除其中的许多单词来优化处理和分析。

词位方法

使用单个单词意味着分析中会产生巨大的粒度。复数、动词时态等它们是不同的词，实际上指的是相同的语义。比处理单词词位。然而，我们无法创建完整的语义实体，除非我们进入代码并将复杂的库加载到我们的分析中（如果你能做到的话最好，但不是每个人都能做到）。

如果您无法使用词位，有一个小方法会对您有很大帮助，而且非常简单：从文本中消除复数、大写字母、重音符号和标点符号。这将进一步简化分析并 tw 列表鼓励使用更少的分析文本（语料库）进行更多重复。

发表评论取消回复