一、非分页采集规则就不说了,只说分页的。
二、目标站代码例(某篇文章的第二页内容代码):
Copy code
<h1>家常菜DIY 葱烧大黄鱼
</h1>
<h2> 来源:信息时报 | <a href="http://food.gznet.com/map.htm" target="_blank"><font color="#FC8E03">查看电子地图位置</font></a> | <a
href="http://114search.118114.cn /search_web.html?id=104&fm=index&kw=美食" target="_blank">知百事 通天下?114快搜更多《美食》资料>>></a></h2>
<h3>
<p align="center"><br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004246412.jpg" /><br />
3 先用厨房纸吸干鱼身上的水分,再给其拍上一层面粉。<br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004387076.jpg" /><br />
4 烧热1碗油,放入大黄鱼以中火炸3~4分钟,炸至双面呈金黄色,捞起沥干油备用。<br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004470182.jpg" /><br />
5 锅内留少许油,炒香葱段、姜片、蒜头与青椒片,浇入酱汁炒匀,注入1杯清水煮沸。<br />
</p>
</h3>
<h4><!--分页-->
<a href="5828_1.html">上一页</a>|<a href="5828_3.html">下一页</a>
</h4>
根据以上代码,我的采集规则是这样写的:
1、内容分页导航所在的区域匹配规则:>>>[内容]</h4>
这里说明一下,我采集了几个站,一般不是分页的不需要填写“内容分页导航所在的区域匹配规则”,
我搞了半天,才知道分页采集应该填写这个。
右边的:全部列出的分页列表
上下页形式或不完整的分页列表
选哪一项自己测试一下。
2、文章内容匹配规则和第一点是一样的,为:>>>[内容]</h4>
3、文章内容过滤规则。这个很重要,我采集多个站,采集后的文章页面变形,根本原因在于这里没填写好,
一般来说,要使文章不变形,需要过滤的有以下几种:
<div([^.]*)>
</div>
javascript脚本
Object
table
以本例代码来说,一般的思路是过滤掉<div([^.]*)>、</div>就可以了,
但发现采集后页面还是变形,文字变得很大
由于自己完全不懂html,后来发现是<h>和</h>(二级标题代码)在作怪,
于是把这两项(包括h1 h2 h3 h4等)也过滤掉了,页面就正常了。
但发现页面多出来一组“上一页”、“下一页”两个链接
(dede默认自动就帮你按照目标站的分页设置好上一页下一页了,所以多出来的一组是目标站的链接)
于是把代码里的 “上一页”、“下一页”和这两组文字之间的分隔号“|”过滤掉才算完全完成了规则的填写。
三、总结一下
1、一定要耐心,反复对比,反复设计过滤内容和内容匹配规则,多次测试;
2、对于新手来说,最重要的是采集页面代码简单的目标站。现在哪种类型的网站都是一抓一大堆,
没必要花费太多时间去研究一些代码比较复杂的,除非自己时间太多了。 |