经典和基本的方法对于使用我们能够访问的语料库没有用……我们该如何解决呢?有几种技术可以帮助我们克服这些限制,并且即使在语料库非常有限的情况下也能够进行录音。让我们回顾一下它们。
添加“停用词”
由于缺乏语料库来帮助我们检测该语言中最常见的单词,我们引入这些单词,而不是像 IDF 中那样最小化它们,而是将它们从分析中完全消除。
例如,在 PMI 中,我们不仅需要查
看两个术语的相关程度,还需要检测一个术语单独出现的次数。因为?好吧,为了避免被告知最大的共现总是诸如“the”、“the”、“of”等词。否则,当分析哪 WhatsApp 电话号码数据 个词与“SEO”同现最多时,我们会发现这个词总是“The”,因为人们通常写“the SEO”。
由于我们没有能力进行如此复杂的分
因此我们要做的技巧是手动从分析中删除所有这些单词:
冠词、常用助词、介词、数字等。我们 有许多方法完全遵循虚拟化概念 创建一个包含所有这些单词的单词列表,并在分析它们之前将它们从文本中删除。
结果将是:
强调真正重要的术语。您可以选择从文本中删除最后的元音或元音+“s”。
或者选择一些不那么激烈的东西,比如消除“es”、“s”和“e”的词尾。
例如,“truck”和“trucks”经过处理后变成“truck”,生成相同的单词或伪词素。
我们通过删除其中的许多单词来优化处理和分析。
词位方法
使用单个单词意味着分析中会产生巨大的粒度。复数、动词时态等它们是不同的词,实际上指的是相同的语义。比处理单词词位。然而,我们无法创建完整的语义实体,除非我们进入代码并将复杂的库加载到我们的分析中(如果你能做到的话最好,但不是每个人都能做到)。
如果您无法使用词位,有一个小方法会对您有很大帮助,而且非常简单:从文本中消除复数、大写字母、重音符号和标点符号。这将进一步简化分析并 tw 列表 鼓励使用更少的分析文本(语料库)进行更多重复。