如何识别和阻止“不良”机器人
2015 年 9 月 3 日 阿纳斯塔西娅·马特维耶娃 6155
作者: Ben Goodsell是 RKG Merkle 的搜索引擎推广主管。技术搜索引擎优化领域的专家,具有在社交媒体上推广网站的经验,擅长制定内容推广策略和链接建设。定期与各大品牌合作。
资料来源:
任何称职的优化师在其职业生涯中都曾
不得不分析日志文件以确定 Googlebot 搜索机器人的行为。然而,很少有人意识到这种方法在检测定期访问该站点的不需要的机器人方面有多有效。主要危险在于这些机器人自动执行 JavaScript 脚本,用虚假数 大量短信伊朗 据淹没分析,破坏资源,非法复制其内容等。
根据 Incapsula 的年度报告,网站平均收到 56% 的非自然流量。同时,在 29% 的情况下,访问资源的机器人程序包含恶意软件并造成重大损害。在研究期间,该机构的专家组在 90 天内分析了 20,000 个不同规模网站的统计数据。通过观察,可以挑出另一个值得注意的点:网站所代表的品牌越大、知名度越高,它成为机器人程序的目标就越明显、越受欢迎。
本文的主要目的是告诉行业专家如何开
始审核该领域的站点,以及如何使用 Excel 正确分析日志文件以识别“肆无忌惮”的机器人程序,然后在服务器级别阻止它们。文章作 cz 列表 者还将讨论如何消除 Google Analytics 报告中的失真。
查找日志文件
如您所知,服务器会记录对该站点的所有调用,并将它们以带有列表的文本文件的形式存储。真实用户是否访问该站点(例如,通过 Firefox 浏览器)或 Googlebot 是否抓取资源的新页面都无关紧要 – 所有这些活动都记录在一个特殊文件中。这些文件的位置取决于服务器或主机的类型。