• [织梦吧]唯一域名:www.dedecms8.com,织梦DedeCMS学习平台.

当前位置: > DedeCMS教程 > DedeCMS安装使用 >

dedecms采集老是采不了内容

来源: www.dedecms8.com 编辑:织梦吧 时间:2012-01-13点击:

答案

Dedecms4.0RC1为最新版本,增加了自由列表、反向通行证、后台界面更改,用lai适应项目大型化的应用的便利性;重复文档检测辅助功能,da量提取缩略图、数据库内容替换、随机dedecms8.com/moban/">模板防采集等辅助插件;增加会员点卡与会员时间限制功能,并提供部份网上支付接口;采集向导增加了即时测试列表和内容;更完善的树形菜单式的文档管理与发布方式,与栏目相关的地方大多用AJAX载入,更实用化;系统配置参数分组,更人性化;增加会员数据导入与转换功能,允许Dedecms会员系统使用不同的密码形式;采集增加设置引用网址的功能,彻底克服居于http1.1协议的防盗链图片防盗链问题;严格检查了并限制了会员上传附件程序的可能存在的安全问题,提高了安全性

条件没写对。要采集的网址发出来看看。我帮你写一个

1、例如采集中去除内容里的超链接的规则如下:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
假如要将所有超链接内容都去除,规则是:{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
这两个规则的不同通过下面代码来解释
例如文章代码中包含着如下内容:<a href="#">超链接</a>
通过第一个规则,我们采集来的结果是:超链接
通过第二个规则,我们采集来的结果是:空白,即是将所有内容都过滤掉了。

2、过滤广告
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如
<script src=’/plus/ad_js.php?aid=4′ language=’javascript’></script>
这样的规则只需
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
如果某些广告的内容是JS代码写在<script></script>区间里的,例如GG的广告,那么过滤规则应该是:
{dede:trim}<script>(.*)</script>{/dede:trim}

3、下面是一些常识用的过滤规则

{dede:trim}<!–(.*)–>{/dede:trim}
{dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim}
{dede:trim}<option([^>]*)>([^>]*)</option>{/dede:trim}
{dede:trim}<select([^>]*)>{/dede:trim}
{dede:trim}</select>{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<script>(.*)</script>{/dede:trim}
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}

———————————–
对于下面这些规则就请慎用
———————————–

{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}
{dede:trim}<div(.*)>(.*)</div>{/dede:trim}
{dede:trim}<center(.*)>{/dede:trim}
{dede:trim}</center>{/dede:trim}
{dede:trim}<p(.*)>{/dede:trim}
{dede:trim}</p>{/dede:trim}
{dede:trim}<span(.*)>{dede:trim}
{dede:trim}</span>{dede:trim}
{dede:trim}<img(.*)>{/dede:trim}
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}

还是用火车头好 DEDE里面的那个采集很垃圾的 。。

还很卡 采集了半天根本采集不了的 。

我现在都是用火车头 我的网站

新做的 。

火车头采集很快的。。

使用火车头吧 程序自带的采集一般都满足不了用户的需求

About D8

  • ©2014 织梦吧(d8) DedeCMS学习交流平台
  • 唯一网址 www.DedeCMS8.com 网站地图
  • 联系我们 1170734538@qq.com ,  QQ