织梦CMS采集教程

看过一篇教程，讲的很详细，地址在这里

教程是以织梦官网为例的，源代码比较规范

以下记录的操作步骤：

1、增加新节点：

A. 打开后台管理，采集——采集管理——采集节点管理——添加新节点

B. 内容模型（普通文章和图片集），选择普通文章，点击确定

C. 设置基本信息及网址索引页规则

这里就开始第一步的配置了，先把这三部分截个图，后面还有详细的

C-1. 节点基本信息

节点名称：根据抓取的网站和内容填写，比如抓取的是新娘频道的彩妆，就叫网易新娘彩妆，不重复，易区分为原则。

目标页面编码：在网页上鼠标右键——查看页面源代码，在<head>属性中

区域匹配模式：默认～字符串

内容导入顺序：默认～与目标站一致

真相C-1

来源属性：批量生成列表网址

匹配网址：

那么我们认为列表页的网址规律是前面地址不变，只有最后一级是等差数列递增关系，从1到最末页数字，所以（*）从1到几，若第一次采集可以多写一些，但是之后再改回来，因为每天更新量不会很大，一两页就好。当然最终还是要看需求是怎样的。

手工指定网址：当列表页的地址无规律或者不遵循数字递增规律的时候，就用手工添加，直接复制列表页网址过来就行。

真相C-2

区域开始的html和结束的html：也就是网页中列表开始和结束的位置，打开源代码，有些网站没有很规范的加注释，所以就要自己寻找一下

真相c-3_01

真相c-3_02

对区域网址进行再次筛选：因为抓取的静态网页大部分是以.html结尾的，我们这里做一个筛选，如果列表页比较混乱我们可以设置不能包含什么内容，这个功能我还没试过，有机会试下。

真相c-3_03

保存至下一步

C-4 . 网址获取规则测试

一个显示测试结果的页面，就是看看能不能正常抓取到，目前没发现别的更重要的作用。

保存进入下一步

D. 第二步设置内容字段获取规则

D-1. 固定采集项目

这里有标题、作者、来源、时间等信息，只要按源代码copy就行了，但有时会抓不到，并不是每一个网站代码都很规范，另外提醒一下，文章标题系统会自动填上<title>[内容]</title>，但不要用这个，因为每个网页的title都会带自己网站的标志，也就是说，你抓下来的文章题目后缀都是搜狐娱乐啊，网易科技之类的～～

文章标题：<div class="show_wz_biaoti">[内容]</div>

文章来源：<td width="30%" align="left">作者：[内容]来源：

我是这样配置的

但是最后显示的结果，是来源和发布时间没有，这个在之前我抓取网易列表的时候也出现过

关于文站来源：我把代码改成</a> 来源：[内容]<td width="30%" align="left">，系统就可以读取了，但是读取之后多出一个</td> ,

织梦CMS 采集教程

关于

就ok了

织梦CMS 采集教程

D-2. 针对模型设置的采集项目

依旧看源代码，从文章的正式内容开始，

这个研究的不深刻，就用个这个功能，点击过滤规则——常用规则