• [织梦吧]唯一域名:www.dedecms8.com,织梦DedeCMS学习平台.

当前位置: > DedeCMS教程 > DedeCMS模板标签 >

dedecms采集功能的详细介绍(十)

来源: www.dedecms8.com 编辑:织梦吧 时间:2012-01-16点击:


今天来给大家讲解下dedecms的采集功能,希望大家认真学习
一.采集第一要素:确定目标网站
二.路径:后台--采集--采集节点管理--添加一个新节点----普通文章和图片集--设置新增采集节点
三.下面讲解下设置详细内容和介绍
  1.
    节点名称:随便写下那个站的采集就可以了   
   编码:查看目标站的源码,头部的charse属性就知道了该怎么填写了
    区域匹配模式:一般均默认字符串;而正则表达式相当于过滤的意思
   内容导入顺序:这个看你想怎么做了,正着导入还是倒序导入,你就选择相应的导入方式
   防盗链模式:开启(防止刷新时间:20s)
  2.列表网址获取规则
来源属性:有两种方式
  (1)批量生成列表网址
匹配网址:填目标站一个栏目的第一页的网址,将其中的1改成*
然后设置*为从1到n,每页递增多少页由你自己决定,呵呵
启用多栏目通配(#):list-(#)-(*).htm  
#表示采集多栏目
*表示采集多列表页面的内容
  (2)手工指定网址
只指定某页面的部分文章,直接输入文章内容页面的网址就可以了
  3.文章网址匹配规则
   (1)区域开始的html:目标站的被采集的一个列表页的源文件的采集区域的开头的一个html标签
   (2)区域结束的html:目标站的被采集的一个列表页的源文件的采集区域的结束的一个html标签
   (3)如果连接中含有图片
采集为缩略图:图片采集到本机
不处理:就是不采集
   (4)对区域网址进行再次筛选:这个必须包含  采集网址的共同点  
四.网址获取匹配规则测试
保存进入下一步设置
五.网页内容获取规则
  1.文章标题
匹配规则:
<title>[内容]</title>
  2.文章来源
匹配规则:
时间:<strong>[内容]</strong>
  3.文章内容
匹配规则:
<div class=“content”>[内容]</div>

总之,这些例子就举到这里,它就是所需内容的形式,即语言的形式和CSS样式
  4.过滤规则讲解
常用规则----随便选中一个----选择去掉中间的文字---得到如下代码
{dede:trim replace=""}{/dede:trim}
将要过滤的字放在中间就OK 了
六。采取成功后,前台不出现的原因
(1)先增加一个栏目---:核心---网站栏目管理----增加顶级栏目
(2)采集---采集节点管理---选中节点总目录---导出数据----采集管理
采集管理中有两个选项
第一个选项:默认导出栏目:选中刚才设置的栏目
第二个选项:附带选项中:选中完成后自动生成导入内容html

好了,采集功能就讲到这了,大家要在实践中操作,我在这里只是大致讲解了下dedecms采集功能设置
过程中的一些要点,重要的还是要大家去操作实践!



标签:

About D8

  • ©2014 织梦吧(d8) DedeCMS学习交流平台
  • 唯一网址 www.DedeCMS8.com 网站地图
  • 联系我们 1978130638@qq.com ,  QQ