当成功后,你就可以把csv文件都合并起来啦,输入命令:
copy *.csv..\ok.csv
意思是,拷贝出所有以后缀名为csv的文件,输出到上一级目录下的ok.csv文件中。
这样就完成了合并。
我们打开ok.csv看看?接下来就可以进行简单的去重处理。
图注:简单去重后,我们依然可以大致浏览一下。
我们发现,死链前链中,有许多来自于不同域名的相似目录下的页面。我们不妨把这些页面单独存起来。
图注:筛选出所有zx123.cn子域名下包含xiaoqu目录的页面
然后我们发现,还有一些包含baidu.com/的页面,这些页面一般是经过推送数据来进行抓取的,所以也暂时分类到一边。
图注:百度的抓取数据
剩下的数据中,还剩下外部死链,而外部死链中还包含一些垃圾链接,我们需要把这些垃圾链接找出来。
图注:按照死链链接排序
把垃圾死链也单独归为一类,剩下的就是真正的外链死链了。
标签: