• [织梦吧]唯一域名:www.dedecms8.com,织梦DedeCMS学习平台.

织梦吧 - dedecms,网站模板,建站教程,图片素材免费下载

DedeCMS视频教程

织梦采集教程:织梦CMS采集列表网址索引

来源: www.dedecms8.com 编辑:织梦吧 时间:2012-01-12点击:

下图(图2.111)是创建采集节点页面的网址索引页截图,这里主要填写目标站列表地址和相应的规则。下面将分别把节点基本信息、列表网址获取规则和文章网址匹配规则介绍一下。

(图2.111)

上图(图2.111)是创建采集节点页面的网址索引页截图,这里主要填写目标站列表地址和相应的规则。下面将分别把节点基本信息、列表网址获取规则和文章网址匹配规则介绍一下。

在节点基本信息下有两个地方需要注意,节点名称和目标页面编码。节点名称虽然允许为空,但最好能填上简单易懂文字进行标识;目标页面编码指的是目标文章页面源代码中的charset值,这个设置是为了字符能正常显示。

节点基本信息

防盗链模式用于目标站设置了刷新限制后,对采集进行速度限制。这个设置比较难判断,因为没有固定值,所以需具体测试目标站点才能知道。

列表网址获取规则

dedecms8.com">dedecms8.com">织梦的采集系统对列表地址有三种获取方式:

1. 批量生成列表网址:

批量采集列表网址,是常用的地址获取方式。首先,观察目标站列表间的变化,一般即可得知规律,如图2.121。

(图2.121)

复制一个地址,回到采集器,粘贴到匹配网址处,变化的地方使用(*)替换,同时设置*的变化范围和递增量,如图2.122。

(图2.122)

上面只是对目标站单个栏目的列表生成,对于多个栏目地址的生成,织梦也考虑到了,具体如图2.123,“匹配网址”输入(#),勾选“启用了多栏目通配”,在“多栏目通配规则”填写下图中规则即可。

(图2.123)

2. 手工指定列表网址:

顾名思义手工指定不同之列表地址

3. 从RSS中获取:

使用RSS获取列表地址,如:

文章网址匹配规则

您可以创建一个匹配区域来筛选文章地址,也可以观察地址的规律使用包含和不能包含来过滤地址,其中包含的优先级高于不能包含,此处可以使用正则。具体如图2.131。

(图2.131)

标签:
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)

About D8

  • ©2014 织梦吧(d8) DedeCMS学习交流平台
  • 唯一网址 www.DedeCMS8.com 网站地图
  • 联系我们 tom@tiptop.cn ,  QQ