dedecms分页采集规则实例

一、非分页采集规则就不说了，只说分页的。

二、目标站代码例（某篇文章的第二页内容代码）：

Copy code

<h1>家常菜DIY 葱烧大黄鱼
                </h1>

                <h2> 来源：信息时报　|　<a href="http://food.gznet.com/map.htm" target="_blank"><font color="#FC8E03">查看电子地图位置</font></a>　|　<a
                        href="http://114search.118114.cn /search_web.html?id=104&fm=index&kw=美食" target="_blank">知百事通天下？114快搜更多《美食》资料>>></a></h2>

                <h3>
<p align="center"><br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004246412.jpg" /><br />
3 先用厨房纸吸干鱼身上的水分，再给其拍上一层面粉。<br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004387076.jpg" /><br />
4 烧热1碗油，放入大黄鱼以中火炸3～4分钟，炸至双面呈金黄色，捞起沥干油备用。<br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004470182.jpg" /><br />
5 锅内留少许油，炒香葱段、姜片、蒜头与青椒片，浇入酱汁炒匀，注入1杯清水煮沸。<br />
</p>

                </h3>
                <h4>

                    <a href="5828_1.html">上一页</a>|<a href="5828_3.html">下一页</a>

                </h4>

根据以上代码，我的采集规则是这样写的：

1、内容分页导航所在的区域匹配规则：>>>[内容]</h4>

这里说明一下，我采集了几个站，一般不是分页的不需要填写“内容分页导航所在的区域匹配规则”，

我搞了半天，才知道分页采集应该填写这个。

右边的：全部列出的分页列表

上下页形式或不完整的分页列表

选哪一项自己测试一下。

2、文章内容匹配规则和第一点是一样的，为：>>>[内容]</h4>

3、文章内容过滤规则。这个很重要，我采集多个站，采集后的文章页面变形，根本原因在于这里没填写好，

一般来说，要使文章不变形，需要过滤的有以下几种：

<div([^.]*)>

</div>

javascript脚本

Object

table

以本例代码来说，一般的思路是过滤掉<div([^.]*)>、</div>就可以了，

但发现采集后页面还是变形，文字变得很大

由于自己完全不懂html，后来发现是<h>和</h>（二级标题代码）在作怪，

于是把这两项（包括h1 h2 h3 h4等）也过滤掉了，页面就正常了。

但发现页面多出来一组“上一页”、“下一页”两个链接

（dede默认自动就帮你按照目标站的分页设置好上一页下一页了，所以多出来的一组是目标站的链接）

于是把代码里的 “上一页”、“下一页”和这两组文字之间的分隔号“|”过滤掉才算完全完成了规则的填写。

三、总结一下

1、一定要耐心，反复对比，反复设计过滤内容和内容匹配规则，多次测试；

2、对于新手来说，最重要的是采集页面代码简单的目标站。现在哪种类型的网站都是一抓一大堆，

没必要花费太多时间去研究一些代码比较复杂的，除非自己时间太多了。

标签: 规则内容采集过滤代码实例

首页

dedecms分页采集规则实例

Copy code

猜您也喜欢...

热门TagS