具体方法是,把垃圾页面找出来——从搜索结果页面和黑链的两个sheet中,把外链页面整合到一起。如sheet3所示。
图注:合并垃圾外链页面
接下来的处理会使用到一款小工具,来快速获取这些链接的主域名。
https://www.benmi.com/getdomain.html
图注:将链接复制到左边红框里,点击本地提取,就会出现在右侧红框
如此一来,我们就得到了这些垃圾外链页面的主域名,我们只需要在我们服务器上配置一下防盗链,禁止refer(来源)为这些域名的访问(返回404http状态码)即可。
2、从站内对搜索结果页面进行处理(黑链处理我保留在下一次专题,因为要大量结合linux的shell脚本):
权重比较高的网站的站内搜索,一定要注意antispam(反垃圾)。如果不加以防范的话,一旦被黑客利用,那么可能会造成大量搜索页面被百度抓取,黑客利用高权重网站的资源,快速做好黄赌毒行业的关键词排名。但是这对于我们网站来说,则是噩梦般的打击。不作处理的话,可能会导致如下几方面的问题:浪费大量的蜘蛛抓取配额,去抓取垃圾页面;垃圾页面被搜索引擎收录,网站词库被黑客污染,使得网站的行业词和品牌词排名不理想;对网站形象造成损失……等。
在进行这类反垃圾策略的时候,我们需要关注四个方面:站内用户可以正常使用;不允许搜索引擎抓取这类页面;拒绝垃圾外链的访问;页面上不得出现垃圾关键词。
既然有了明确的目标,那么相应的应对方案也就出来了,那就是:
A 限制来源,拒绝掉所有非站内来源的搜索
B 页面上的TKD等关键位置,不对搜索词进行调用
C 指定敏感词库过滤规则,将敏感词全部替换为星号*(有一定技术开发要求)
D 在robots.txt声明,不允许抓取
E 在页面源代码head区间添加meta robots信息,声明该页面不允许建立索引(noindex)
进行以上处理,可以解决掉大部分站内搜索页面(不局限于该类页面,甚至其他的页面只要不希望搜索引擎抓取以及建立索引的话,都可以这样处理)容易出现的问题。
二、我们再来看一下死链分析。
死链,在站长工具的死链提交工具的帮助文档中已经有详尽的阐释,我仅仅进行一些补充即可。