接下来,我们从一般请求流中任意提取一定数量的请求到 Yandex,并为它们删除 SERP。事实证明,只有 8.7% 的 SERP 是空的,所以我们有了互联网第 34 条规则的修正版:

以下是完全无害的包含色情内容的查询示例(其中一些甚至有很多):[西瓜]、[翼手龙]、[学生节]、[栗子]、[美丽的俄罗斯房屋照片], [伦蒂克]。这说明了任务远非微不足道的事实。

大约 91.3% 的内容已经包含色情内容

为了解决这个问题,不当内容分类组使用了大量的各种工具、技术和库——其中有 Vowpal wabbit、Word2vec 和 Yandex 自己的技术,如 MatrixNet、DaNet、Ethos。

也有各种各样的方法来建立关于哪个文档需要首先重新检查的假设。例如,我们可以在不同类型的内容之间,在查询和 意大利手机号码列表 文档之间传递标签,或者,例如,每个人都知道我们可以搜索相似的图片。如果我们拍一张我们不知道它是什么类别的照片,找到所有相似的图片并收集图片附近的所有文字,那么我们就有机会发现这张图片实际上是一张色情图片,因为文字此图片的其中一个版本是色情内容。

视频中还使用了一个有趣的“hack”。如果用户在色情会话中,比如说,第一个视频是色情视频,第三个视频也是色情视频,那么第二个视频很可能也不是关于小猫的。我们可以使用它。

但是点击是一个不好的信号。色情有这样一个特点,即使你展示了一个完全不符合色情要求的色情文件,你也很有可能会收到这个文件的点击。色情的点击率异常高。

所有这些工具和技巧如何帮助我们

电话号码列表

我们有一个成人泄漏指标——我们抽取请 cz 列表 求样本,从中删除色情请求,留下大约 10,000 个请求并将它们交给评估人员进行标记。这些请求的评估员标记在顶部,然后我们将色情文件的数量除以标记中所有文件的数量。幻灯片上显示的这个指标的值告诉我们,100,000 份文件中只有 85 份是色情文件。这似乎是一个很好的结果。但正如他们所说,完美无止境,此外,不应忘记存在所谓的灰色地带,在搜索中会出现大量问题。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注