• [织梦吧]唯一域名:www.dedecms8.com,织梦DedeCMS学习平台.

当前位置: > DedeCMS教程 > DedeCMS安装使用 >

dedecms分页采集规则实例

来源: www.dedecms8.com 编辑:织梦吧 时间:2010-08-23点击:

一、非分页采集规则就不说了,只说分页的。

二、目标站代码例(某篇文章的第二页内容代码):
 

Copy code
<h1>家常菜DIY 葱烧大黄鱼
                </h1>

                <h2> 来源:信息时报 | <a href="http://food.gznet.com/map.htm" target="_blank"><font color="#FC8E03">查看电子地图位置</font></a> | <a
                        href="http://114search.118114.cn /search_web.html?id=104&fm=index&kw=美食" target="_blank">知百事 通天下?114快搜更多《美食》资料>>></a></h2>

                <h3>
<p align="center"><br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004246412.jpg" /><br />
3 先用厨房纸吸干鱼身上的水分,再给其拍上一层面粉。<br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004387076.jpg" /><br />
4 烧热1碗油,放入大黄鱼以中火炸3~4分钟,炸至双面呈金黄色,捞起沥干油备用。<br />
<img alt="" src="http://food.gznet.com/Admin/Upfile/Image/20090219/1235004470182.jpg" /><br />
5 锅内留少许油,炒香葱段、姜片、蒜头与青椒片,浇入酱汁炒匀,注入1杯清水煮沸。<br />
</p>

                </h3>
                <h4><!--分页-->
                    
                    <a href="5828_1.html">上一页</a>|<a href="5828_3.html">下一页</a>
                    
                </h4>


根据以上代码,我的采集规则是这样写的:



1、内容分页导航所在的区域匹配规则:>>>[内容]</h4>



这里说明一下,我采集了几个站,一般不是分页的不需要填写“内容分页导航所在的区域匹配规则”,


我搞了半天,才知道分页采集应该填写这个。



右边的:全部列出的分页列表


        上下页形式或不完整的分页列表


选哪一项自己测试一下。




2、文章内容匹配规则和第一点是一样的,为:>>>[内容]</h4>



3、文章内容过滤规则。这个很重要,我采集多个站,采集后的文章页面变形,根本原因在于这里没填写好,



一般来说,要使文章不变形,需要过滤的有以下几种:



<div([^.]*)>


</div>


javascript脚本


Object


table



以本例代码来说,一般的思路是过滤掉<div([^.]*)>、</div>就可以了,


但发现采集后页面还是变形,文字变得很大


由于自己完全不懂html,后来发现是<h>和</h>(二级标题代码)在作怪,


于是把这两项(包括h1  h2   h3  h4等)也过滤掉了,页面就正常了。



但发现页面多出来一组“上一页”、“下一页”两个链接


(dede默认自动就帮你按照目标站的分页设置好上一页下一页了,所以多出来的一组是目标站的链接)



于是把代码里的 “上一页”、“下一页”和这两组文字之间的分隔号“|”过滤掉才算完全完成了规则的填写。



三、总结一下



1、一定要耐心,反复对比,反复设计过滤内容和内容匹配规则,多次测试;



2、对于新手来说,最重要的是采集页面代码简单的目标站。现在哪种类型的网站都是一抓一大堆,


没必要花费太多时间去研究一些代码比较复杂的,除非自己时间太多了。

About D8

  • ©2014 织梦吧(d8) DedeCMS学习交流平台
  • 唯一网址 www.DedeCMS8.com 网站地图
  • 联系我们 1978130638@qq.com ,  QQ