今天来给大家讲解下dedecms的采集功能,希望大家认真学习
一.采集第一要素:确定目标网站
二.路径:后台--采集--采集节点管理--添加一个新节点----普通文章和图片集--设置新增采集节点
三.下面讲解下设置详细内容和介绍
1.
节点名称:随便写下那个站的采集就可以了
编码:查看目标站的源码,头部的charse属性就知道了该怎么填写了
区域匹配模式:一般均默认字符串;而正则表达式相当于过滤的意思
内容导入顺序:这个看你想怎么做了,正着导入还是倒序导入,你就选择相应的导入方式
防盗链模式:开启(防止刷新时间:20s)
2.列表网址获取规则
来源属性:有两种方式
(1)批量生成列表网址
匹配网址:填目标站一个栏目的第一页的网址,将其中的1改成*
然后设置*为从1到n,每页递增多少页由你自己决定,呵呵
启用多栏目通配(#):list-(#)-(*).htm
#表示采集多栏目
*表示采集多列表页面的内容
(2)手工指定网址
只指定某页面的部分文章,直接输入文章内容页面的网址就可以了
3.文章网址匹配规则
(1)区域开始的html:目标站的被采集的一个列表页的源文件的采集区域的开头的一个html标签
(2)区域结束的html:目标站的被采集的一个列表页的源文件的采集区域的结束的一个html标签
(3)如果连接中含有图片
采集为缩略图:图片采集到本机
不处理:就是不采集
(4)对区域网址进行再次筛选:这个必须包含 采集网址的共同点
四.网址获取匹配规则测试
保存进入下一步设置
五.网页内容获取规则
1.文章标题
匹配规则:
<title>[内容]</title>
2.文章来源
匹配规则:
时间:<strong>[内容]</strong>
3.文章内容
匹配规则:
<div class=“content”>[内容]</div>
总之,这些例子就举到这里,它就是所需内容的形式,即语言的形式和CSS样式
4.过滤规则讲解
常用规则----随便选中一个----选择去掉中间的文字---得到如下代码
{dede:trim replace=""}{/dede:trim}
将要过滤的字放在中间就OK 了
六。采取成功后,前台不出现的原因
(1)先增加一个栏目---:核心---网站栏目管理----增加顶级栏目
(2)采集---采集节点管理---选中节点总目录---导出数据----采集管理
采集管理中有两个选项
第一个选项:默认导出栏目:选中刚才设置的栏目
第二个选项:附带选项中:选中完成后自动生成导入内容html
好了,采集功能就讲到这了,大家要在实践中操作,我在这里只是大致讲解了下dedecms采集功能设置
过程中的一些要点,重要的还是要大家去操作实践!