看过一篇教程,讲的很详细,地址在这里
教程是以织梦官网为例的,源代码比较规范
以下记录的操作步骤:
1、增加新节点:
A. 打开后台管理,采集——采集管理——采集节点管理——添加新节点
B. 内容模型(普通文章和图片集),选择普通文章,点击确定
C. 设置基本信息及网址索引页规则
这里就开始第一步的配置了,先把这三部分截个图,后面还有详细的
C-1. 节点基本信息
节点名称:根据抓取的网站和内容填写,比如抓取的是新娘频道的彩妆,就叫网易新娘彩妆,不重复,易区分为原则。
目标页面编码:在网页上鼠标右键——查看页面源代码,在<head>属性中
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
so
区域匹配模式:默认~ 字符串
内容导入顺序:默认~ 与目标站一致
真相C-1
来源属性:批量生成列表网址
匹配网址:
那么我们认为列表页的网址规律是前面地址不变,只有最后一级是等差数列递增关系,从1到最末页数字,所以(*)从1到 几 ,若第一次采集可以多写一些,但是之后再改回来,因为每天更新量不会很大,一两页就好。当然最终还是要看需求是怎样的。
手工指定网址:当列表页的地址无规律或者不遵循数字递增规律的时候,就用手工添加,直接复制列表页网址过来就行。
真相C-2
区域开始的html和结束的html:也就是网页中列表开始和结束的位置,打开源代码,有些网站没有很规范的加注释,所以就要自己寻找一下
真相c-3_01
真相c-3_02
对区域网址进行再次筛选:因为抓取的静态网页大部分是以.html结尾的,我们这里做一个筛选,如果列表页比较混乱我们可以设置不能包含什么内容,这个功能我还没试过,有机会试下。
真相c-3_03
保存至下一步
C-4 . 网址获取规则测试
一个显示测试结果的页面,就是看看能不能正常抓取到,目前没发现别的更重要的作用。
保存进入下一步
D. 第二步设置内容字段获取规则
D-1. 固定采集项目
这里有标题、作者、来源、时间等信息,只要按源代码copy就行了,但有时会抓不到,并不是每一个网站代码都很规范,另外提醒一下,文章标题系统会自动填上<title>[内容]</title>,但不要用这个,因为每个网页的title都会带自己网站的标志,也就是说,你抓下来的文章题目后缀都是搜狐娱乐啊,网易科技之类的~~
文章标题:<div class="show_wz_biaoti">[内容]</div>
文章来源:<td width="30%" align="left">作者:[内容]来源:
我是这样配置的
但是最后显示的结果,是来源和发布时间没有,这个在之前我抓取网易列表的时候也出现过
关于文站来源:我把代码改成</a> 来源:[内容]<td width="30%" align="left">,系统就可以读取了,但是读取之后多出一个</td> ,
关于
就ok了
D-2. 针对模型设置的采集项目
依旧看源代码,从文章的正式内容开始,
这个研究的不深刻,就用个这个功能,点击过滤规则——常用规则
会弹出窗口,选择要过滤的内容,我一般过滤超链接,图片偶尔也会,还是那句话,看需求了。
真相 D-2
开始采集
点击 采集管理——采集节点管理,选中要导出文章的节点,如图
点击导出数据