图注:检验成果的时候到啦。
我们把数据按照一定逻辑关系分成了四类,分别是【外部死链】【垃圾链接】【百度】【子域名(也属于内部死链)】
我们需要重点关注的是,【子域名】出现的死链。因为子域名也是我们的网站的一部分啊,这些页面上出现了死链,势必对这些页面的SEO效果不利,需要尽快明确原因。
经过与技术部门沟通,我确认到该类问题出现的原因,主要是我们网站的服务器之间同步数据时不成功,或者服务器之间连接偶然断开所致。这类问题暂时难以避免,因此只能让技术人员将因为这种情况出现的404(永久不可访问)状态码改为返回503(临时不可访问)状态码了。
而【百度】出现的死链,理由和上面的一致。只不过蜘蛛的抓取渠道,是来自于主动推送方式。返回503状态码后,情况有所改善。
【垃圾链接】,我已经在外链分析中做出过一定程度的说明了,可以参考一下。
【外部死链】,这个其实可以不必过于关注,会受到死链影响的不是我们网站,而是导出了死链的网站。但是有时候分析看看,总能发现一些有趣的现象。
比方说,我现在看到的数据的共性是,死链链接都不完整,要么中间用点号来省略了,要么尾部被强行截断了。我们打开死链前链,发现死链链接是作为明链接(无锚文本)出现在页面上。而死链前链的页面,大多数都类似于搜索引擎结果页面,并且这些结果页面上对锚链接都以nofollow进行了控制。
图注:这些都是垃圾搜索引擎,目的是抓取其他网站的信息为己所用,制造垃圾站群
可以看出,【垃圾链接】和【外链死链】中的大部分,依然也是抱着恶意目的而来的。这时候我们可能就需要考虑,使用反爬虫策略,来禁止一些垃圾搜索引擎对我们网站进行恣意妄为的抓取行为了。(关于反爬虫策略专题,我将来也打算尝试一下)
好啦,这期的内容差不多就是这样,我们来总结一下吧。
(1)分析链接数据的目的:保证搜索引擎对网站正常抓取和索引;防止被恶意人士利用而受到损失。
(2)分析链接数据的手段:一些工具,再加上简单的逻辑。
(3)养成良好工作习惯与意识:每天大致关注一下这些数据,定期仔细分析一下数据,对这些环节有控制地进行操作。
最后,谢谢大家观看。