下图(图2.111)是创建采集节点页面的网址索引页截图,这里主要填写目标站列表地址和相应的规则。下面将分别把节点基本信息、列表网址获取规则和文章网址匹配规则介绍一下。
(图2.111)
上图(图2.111)是创建采集节点页面的网址索引页截图,这里主要填写目标站列表地址和相应的规则。下面将分别把节点基本信息、列表网址获取规则和文章网址匹配规则介绍一下。
在节点基本信息下有两个地方需要注意,节点名称和目标页面编码。节点名称虽然允许为空,但最好能填上简单易懂文字进行标识;目标页面编码指的是目标文章页面源代码中的charset值,这个设置是为了字符能正常显示。
节点基本信息
防盗链模式用于目标站设置了刷新限制后,对采集进行速度限制。这个设置比较难判断,因为没有固定值,所以需具体测试目标站点才能知道。
列表网址获取规则
dedecms8.com">dedecms8.com">织梦的采集系统对列表地址有三种获取方式:
1. 批量生成列表网址:
批量采集列表网址,是常用的地址获取方式。首先,观察目标站列表间的变化,一般即可得知规律,如图2.121。
(图2.121)
复制一个地址,回到采集器,粘贴到匹配网址处,变化的地方使用(*)替换,同时设置*的变化范围和递增量,如图2.122。
(图2.122)
上面只是对目标站单个栏目的列表生成,对于多个栏目地址的生成,织梦也考虑到了,具体如图2.123,“匹配网址”输入(#),勾选“启用了多栏目通配”,在“多栏目通配规则”填写下图中规则即可。
(图2.123)
2. 手工指定列表网址:
顾名思义手工指定不同之列表地址
3. 从RSS中获取:
使用RSS获取列表地址,如:
文章网址匹配规则
您可以创建一个匹配区域来筛选文章地址,也可以观察地址的规律使用包含和不能包含来过滤地址,其中包含的优先级高于不能包含,此处可以使用正则。具体如图2.131。
(图2.131)