• [织梦吧]唯一域名:www.dedecms8.com,织梦DedeCMS学习平台.

当前位置: > DedeCMS教程 > DedeCMS安装使用 >

织梦CMS采集教程

来源: www.dedecms8.com 编辑:织梦吧 时间:2012-01-13点击:

看过一篇教程,讲的很详细,地址在这里

教程是以织梦官网为例的,源代码比较规范

 

以下记录的操作步骤:

 

1、增加新节点

 

A. 打开后台管理,采集——采集管理——采集节点管理——添加新节点

 



 

B. 内容模型(普通文章和图片集),选择普通文章,点击确定

 



 

C. 设置基本信息及网址索引页规则

这里就开始第一步的配置了,先把这三部分截个图,后面还有详细的

 



 

C-1. 节点基本信息

 

节点名称:根据抓取的网站和内容填写,比如抓取的是新娘频道的彩妆,就叫网易新娘彩妆,不重复,易区分为原则。

 

目标页面编码:在网页上鼠标右键——查看页面源代码,在<head>属性中

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 

 



 

so



 

区域匹配模式:默认~ 字符串

内容导入顺序:默认~ 与目标站一致

 

真相C-1



 

来源属性:批量生成列表网址

匹配网址:

那么我们认为列表页的网址规律是前面地址不变,只有最后一级是等差数列递增关系,从1到最末页数字,所以(*)从1到 几 ,若第一次采集可以多写一些,但是之后再改回来,因为每天更新量不会很大,一两页就好。当然最终还是要看需求是怎样的。

手工指定网址:当列表页的地址无规律或者不遵循数字递增规律的时候,就用手工添加,直接复制列表页网址过来就行。

 

真相C-2



 

 

区域开始的html和结束的html:也就是网页中列表开始和结束的位置,打开源代码,有些网站没有很规范的加注释,所以就要自己寻找一下

 

真相c-3_01



 

真相c-3_02



 

对区域网址进行再次筛选:因为抓取的静态网页大部分是以.html结尾的,我们这里做一个筛选,如果列表页比较混乱我们可以设置不能包含什么内容,这个功能我还没试过,有机会试下。

 

真相c-3_03


  

保存至下一步

 

 

C-4 . 网址获取规则测试

一个显示测试结果的页面,就是看看能不能正常抓取到,目前没发现别的更重要的作用。

保存进入下一步

 

 

D. 第二步设置内容字段获取规则

 

D-1. 固定采集项目

 




 

 

这里有标题、作者、来源、时间等信息,只要按源代码copy就行了,但有时会抓不到,并不是每一个网站代码都很规范,另外提醒一下,文章标题系统会自动填上<title>[内容]</title>,但不要用这个,因为每个网页的title都会带自己网站的标志,也就是说,你抓下来的文章题目后缀都是搜狐娱乐啊,网易科技之类的~~

文章标题:<div class="show_wz_biaoti">[内容]</div>

文章来源:<td width="30%" align="left">作者:[内容]来源:

 

我是这样配置的



 

但是最后显示的结果,是来源和发布时间没有,这个在之前我抓取网易列表的时候也出现过

 

关于文站来源:我把代码改成</a> 来源:[内容]<td width="30%" align="left">,系统就可以读取了,但是读取之后多出一个</td> ,

织梦CMS 采集教程

 

关于

就ok了

织梦CMS 采集教程

 

 

D-2. 针对模型设置的采集项目

 

依旧看源代码,从文章的正式内容开始,

 

 

 

这个研究的不深刻,就用个这个功能,点击过滤规则——常用规则

会弹出窗口,选择要过滤的内容,我一般过滤超链接,图片偶尔也会,还是那句话,看需求了。

 

真相 D-2

织梦CMS 采集教程

 

 

开始采集

织梦CMS 采集教程

 

 

点击 采集管理——采集节点管理,选中要导出文章的节点,如图

织梦CMS 采集教程

 

点击导出数据

About D8

  • ©2014 织梦吧(d8) DedeCMS学习交流平台
  • 唯一网址 www.DedeCMS8.com 网站地图
  • 联系我们 1170734538@qq.com ,  QQ